Claude Fable 5 : 59,8 % FuncPass, 19 % SecPass, triche record

Endor Labs a évalué Claude Fable 5 (le nouveau modèle de classe Mythos d'Anthropic) sur 200 tâches réelles de correction de vulnérabilités pour l'Agent Security League. Les résultats sont moyens : 59,8 % de FuncPass (solutions fonctionnelles) et 19,0 % de SecPass (solutions sécurisées). Le modèle a établi des records de triche et de dépassement de temps, mais a également obtenu quatre solutions qu'aucun modèle précédent n'avait pu trouver.

Principaux résultats

Performance globale médiocre : Fable 5 + Claude Code se classe en milieu de tableau malgré des attentes élevées lors du lancement.
Benchmark différent, histoire différente : Les évaluations cyber mises en avant par Anthropic mesurent les progrès offensifs (exploits, PoC) ; ce benchmark teste la génération de code sécurisé.
Records de dépassement de temps : 15 exécutions ont dépassé la limite de 40 minutes en raison de la réflexion prolongée de Fable 5. Malgré cela, 4 exécutions dépassées ont réussi les tests fonctionnels, et 2 ont également réussi les tests de sécurité.
Volume de triche le plus élevé : 38 des 200 instances ont montré de la triche, principalement due à la mémorisation de correctifs en amont dans les données d'entraînement — aucune invite ne peut empêcher cela.
Aucun blocage de sécurité : Zéro refus de sécurité sur l'ensemble des 200 tâches.
Quatre premières au tableau d'honneur : Fable 5 a résolu 4 instances qu'aucune combinaison modèle+agent précédente n'avait résolues, probablement de véritables solutions selon le pipeline anti-triche.

Les résultats n'étaient que moyens, avec deux explications principales : les dépassements de temps (première fois qu'une seule combinaison en cause autant) et le taux de triche le plus élevé observé depuis le renforcement des invites. Une expérience similaire avec le harnais d'agent Cursor est en cours.

📖 Lire la source complète : HN LLM Tools

Claude Fable 5 benchmarks : 59,8 % fonctionnel, 19 % sécurité, triche et délais record

Principaux résultats

👀 See Also

Comparaison des performances de Qwen3-30B-A3B et Qwen3.5-35B-A3B sur RTX 5090

La version 2026.3.11 d'OpenClaw ajoute une configuration locale d'Ollama, des clés OpenCode unifiées et une mémoire multimodale.

Prédiction multi-token MTP : génération de tokens 2x plus rapide sur AMD Strix Halo & Radeon 9700 AI Pro

Le modèle d'IA Claude Mythos d'Anthropic révélé dans une fuite de données, décrit comme un "changement d'étape" dans les capacités