Le benchmark Claude Code révèle un angle mort des juges IA : les bugs de pipeline attribués à tort aux capacités du modèle.

✍️ OpenClawRadar📅 Publié: April 16, 2026🔗 Source
Le benchmark Claude Code révèle un angle mort des juges IA : les bugs de pipeline attribués à tort aux capacités du modèle.
Ad

Configuration du benchmark et résultats initiaux

Un développeur a exécuté un benchmark contrôlé sur trois piles d'agents de codage en utilisant Claude Code (Opus 4.6) comme évaluateur autonome. Le benchmark a testé : OpenCode + MiniMax-M2.7, Gemini CLI + Gemini 3.1 Pro, et Codex CLI + GPT-5.4. Chaque nouveau test était une session fraîche sans mémoire inter-sessions, utilisant l'invite : "exécutez le plan du benchmark, collectez les artefacts, rédigez un rapport."

Lors des deux premières exécutions, OpenCode + MiniMax a obtenu respectivement 15/60 et 16/60. Les rapports générés automatiquement indiquaient : "Consistant avec les résultats précédents : exécution rapide mais aucune sortie de code significative" et "Consistant : MiniMax ne peut pas exécuter la tâche. Le modèle pourrait manquer de la capacité à lire des fichiers externes et à produire des modifications de code dans cette base de code Rust."

La découverte du bug

Après deux sessions produisant des verdicts identiques blâmant le modèle, le développeur a envoyé une instruction à une nouvelle session : "allez plus loin, vérifiez les journaux du démon avant de réessayer." La nouvelle session a retracé le problème jusqu'à un fichier de déversement à ~/.orchestratord/logs/<task_id>.txt. L'étape du plan produisait 50 Ko de contexte utile, mais le sandbox d'OpenCode n'autorisait par défaut que les lectures à l'intérieur du répertoire de travail. Comme le fichier de déversement était en dehors de l'espace de travail, l'étape d'implémentation recevait une chaîne vide au lieu du plan.

La session a proposé un correctif de configuration d'une ligne (déplacer le chemin du déversement à l'intérieur de l'espace de travail) et a relancé le benchmark. Après le correctif, MiniMax a produit 219 lignes de code incluant une structure RetryConfig et une fonction utilitaire connect_with_retry, obtenant un score de 18/60. Les problèmes restants étaient de réelles faiblesses du modèle : quatre erreurs de compilation de type incompatible dans les tests unitaires.

Ad

Implications pour l'évaluation par IA

Cet incident révèle un angle mort critique chez les juges IA autonomes : ils ne se demandent pas "ma chaîne de traitement est-elle cassée ?" même lorsque leur propre analyse identifie des symptômes comme "pourrait manquer de la capacité à lire des fichiers externes". Les deux premières sessions ont exécuté le benchmark complet de bout en bout et ont produit des rapports complets, mais n'ont jamais vérifié les journaux du démon par elles-mêmes. Ce n'est que lorsqu'on leur a explicitement demandé d'enquêter que la troisième session a découvert le bug de configuration.

Ce mode d'échec est particulièrement pertinent car le LLM-comme-juge est devenu la méthodologie d'évaluation par défaut pour de nombreux benchmarks d'agents, y compris le scoring automatique de type arène, les systèmes de test A/B internes et la modélisation de récompense. Le développeur note : "J'étais à une frappe humaine près de publier un benchmark qui attribuait à tort, avec confiance, un bug de sandbox à un modèle."

Autres résultats du benchmark

Codex + GPT-5.4 a pris la première place avec 50/60, bien qu'il ait eu un taux de réussite step_finished de seulement 25 % (trois des quatre étapes de l'orchestrateur ont signalé un échec). Le développeur note cette bizarrerie sans autre explication dans le texte source fourni.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Google Chrome installe silencieusement le modèle IA Gemini Nano de 4 Go – sans consentement de l'utilisateur
News

Google Chrome installe silencieusement le modèle IA Gemini Nano de 4 Go – sans consentement de l'utilisateur

Google Chrome a été découvert en train de télécharger et d'installer silencieusement le modèle IA Gemini Nano de 4 Go sur les appareils des utilisateurs sans consentement explicite, suscitant des inquiétudes en matière de confidentialité et de stockage.

OpenClawRadar
Traduction en français : Rapports d'utilisateurs d'Anthropic Claude concernant une restriction silencieuse de fonctionnalité sur un compte payant
News

Traduction en français : Rapports d'utilisateurs d'Anthropic Claude concernant une restriction silencieuse de fonctionnalité sur un compte payant

Un abonné payant de Claude rapporte que l'exécution de commandes shell/bash a cessé de fonctionner sur toutes les sessions sans notification, avec des restrictions intégrées dans l'invite système au niveau du déploiement. L'utilisateur a déposé plusieurs tickets de support et formulaires d'appel mais n'a reçu aucune réponse tout en continuant à être facturé.

OpenClawRadar
Sandbox externe pour agents : Exécution durable et démarrages à froid
News

Sandbox externe pour agents : Exécution durable et démarrages à froid

Exécuter la boucle de l'agent en dehors du sandbox isole les identifiants, permet la suspension du sandbox et simplifie le partage multi-utilisateur, mais nécessite de résoudre l'exécution durable et la latence de démarrage à froid.

OpenClawRadar
Extension VS Code Claude cassé sur Windows après un chemin Linux codé en dur dans une mise à jour récente
News

Extension VS Code Claude cassé sur Windows après un chemin Linux codé en dur dans une mise à jour récente

La récente mise à jour de l'extension VS Code d'Anthropic code en dur un chemin Linux, ce qui casse l'extension sous Windows. Revenir à la version précédente rétablit les fonctionnalités.

OpenClawRadar