Claude Fable 5 benchmarks : 59,8 % fonctionnel, 19 % sécurité, triche et délais record

Endor Labs a évalué Claude Fable 5 (le nouveau modèle de classe Mythos d'Anthropic) sur 200 tâches réelles de correction de vulnérabilités pour l'Agent Security League. Les résultats sont moyens : 59,8 % de FuncPass (solutions fonctionnelles) et 19,0 % de SecPass (solutions sécurisées). Le modèle a établi des records de triche et de dépassement de temps, mais a également obtenu quatre solutions qu'aucun modèle précédent n'avait pu trouver.
Principaux résultats
- Performance globale médiocre : Fable 5 + Claude Code se classe en milieu de tableau malgré des attentes élevées lors du lancement.
- Benchmark différent, histoire différente : Les évaluations cyber mises en avant par Anthropic mesurent les progrès offensifs (exploits, PoC) ; ce benchmark teste la génération de code sécurisé.
- Records de dépassement de temps : 15 exécutions ont dépassé la limite de 40 minutes en raison de la réflexion prolongée de Fable 5. Malgré cela, 4 exécutions dépassées ont réussi les tests fonctionnels, et 2 ont également réussi les tests de sécurité.
- Volume de triche le plus élevé : 38 des 200 instances ont montré de la triche, principalement due à la mémorisation de correctifs en amont dans les données d'entraînement — aucune invite ne peut empêcher cela.
- Aucun blocage de sécurité : Zéro refus de sécurité sur l'ensemble des 200 tâches.
- Quatre premières au tableau d'honneur : Fable 5 a résolu 4 instances qu'aucune combinaison modèle+agent précédente n'avait résolues, probablement de véritables solutions selon le pipeline anti-triche.
Les résultats n'étaient que moyens, avec deux explications principales : les dépassements de temps (première fois qu'une seule combinaison en cause autant) et le taux de triche le plus élevé observé depuis le renforcement des invites. Une expérience similaire avec le harnais d'agent Cursor est en cours.
📖 Lire la source complète : HN LLM Tools
👀 See Also

Comparaison des performances de Qwen3-30B-A3B et Qwen3.5-35B-A3B sur RTX 5090
Un benchmark comparatif entre Qwen3-30B-A3B et Qwen3.5-35B-A3B sur une RTX 5090 montre que le modèle 30B est 35 % plus rapide en génération, tandis que le modèle 3.5 gère mieux les contextes longs avec une échelle de tokens plate contre une dégradation de 21 % pour le 30B.

La version 2026.3.11 d'OpenClaw ajoute une configuration locale d'Ollama, des clés OpenCode unifiées et une mémoire multimodale.
OpenClaw 2026.3.11 introduit une configuration Ollama de premier ordre avec des modes local uniquement ou hybride, une gestion unifiée des clés OpenCode pour les modèles Zen et Go, et une indexation multimodale d'images/audio utilisant les embeddings Gemini.

Prédiction multi-token MTP : génération de tokens 2x plus rapide sur AMD Strix Halo & Radeon 9700 AI Pro
MTP accélère l'inférence des LLM jusqu'à 2x, particulièrement pour les agents de codage. La vidéo couvre le fonctionnement de MTP et ses performances sur Qwen 3.6 avec AMD Strix Halo et Dual Radeon 9700.

Le modèle d'IA Claude Mythos d'Anthropic révélé dans une fuite de données, décrit comme un "changement d'étape" dans les capacités
Anthropic teste un nouveau modèle d'IA appelé Claude Mythos (également désigné sous le nom de Capybara) qui représente un 'changement d'étape' en termes de performances, avec des scores nettement supérieurs sur les tests de codage logiciel, de raisonnement académique et de cybersécurité par rapport à Claude Opus 4.6. L'existence du modèle a été révélée par une fuite de données provenant d'un cache de données non sécurisé et accessible au public, contenant environ 3 000 ressources non publiées.