Opus 4.7 Benchmark : L'effort moyen bat élevé et maximal

L'utilisateur de Reddit ktane a testé Claude Opus 4.7 dans Claude Code sur cinq niveaux d'effort de raisonnement (low, medium, high, xhigh, max) sur 29 tâches réelles du dépôt open-source GraphQL-go-tools. Le résultat : l'effort de raisonnement moyen a systématiquement surpassé les réglages plus élevés en termes de taux de réussite des tests, d'équivalence sémantique avec les correctifs humains, de taux de réussite de relecture de code, et de scores agrégés de qualité/discipline.

Résultats clés

Taux de réussite toutes tâches : Medium 28/29, Max 27/29, High 26/29, Xhigh 25/29, Low 23/29
Correctifs équivalents : Medium 14/29, Max 13/29, High 12/29, Xhigh 11/29, Low 10/29
Taux de réussite relecture de code : Medium 10/29, High 7/29, Max 8/29, Xhigh 4/29, Low 5/29
Moyenne de la grille de relecture de code : Medium 2.716, High 2.509, Xhigh 2.482, Max 2.431, Low 2.426
Risque d'empreinte (plus bas = mieux) : Low 0.155, Medium 0.189, High 0.206, Max 0.227, Xhigh 0.238
Coût par tâche : Low 2,50 $, Medium 3,15 $, High 5,01 $, Xhigh 6,51 $, Max 8,84 $
Durée par tâche : Low 383,8 s, Medium 450,7 s, High 716,4 s, Xhigh 803,8 s, Max 996,9 s
Réussites équivalentes par dollar : Low 4,0, Medium 4,4, High 2,4, Xhigh 1,7, Max 1,5

L'auteur note qu'Opus 4.7 utilise la pensée adaptative — il alloue déjà un budget de raisonnement par tâche. Le paramètre d'effort biaise donc une politique déjà adaptative plutôt que d'ajouter de l'intelligence brute. Notamment, dans un PR (#1260), les réglages high et xhigh ont gaspillé du raisonnement supplémentaire à rechercher des hashs de commit de PR antérieurs et ont conclu « aucun travail nécessaire », tandis que medium et max ont correctement lu le flux de contrôle et produit un correctif.

Cela contraste avec GPT-5.5 dans Codex, qui montrait une courbe monotone intuitive où plus de raisonnement améliorait la qualité. Le rapport interactif complet avec des analyses détaillées par tâche est disponible sur stet.sh.

📖 Lire la source complète : r/ClaudeAI

Benchmark d'effort de raisonnement Opus 4.7 : Le niveau moyen bat les niveaux élevé et maximal sur des tâches réelles

Résultats clés

👀 See Also

Des inquiétudes surgissent quant à la convivialité et à la viabilité économique d'OpenClaw.

Précision du Cadre de Raisonnement STAR Chute de 100 % à 0 % dans les Prompts de Production

Illinois adopte le SB 315 : audits par des tiers requis pour les laboratoires d'IA de pointe

Claude Opus 4.7 sorti avec raisonnement hybride et fenêtre contextuelle de 1 million de tokens