Benchmark d'effort de raisonnement Opus 4.7 : Le niveau moyen bat les niveaux élevé et maximal sur des tâches réelles
L'utilisateur de Reddit ktane a testé Claude Opus 4.7 dans Claude Code sur cinq niveaux d'effort de raisonnement (low, medium, high, xhigh, max) sur 29 tâches réelles du dépôt open-source GraphQL-go-tools. Le résultat : l'effort de raisonnement moyen a systématiquement surpassé les réglages plus élevés en termes de taux de réussite des tests, d'équivalence sémantique avec les correctifs humains, de taux de réussite de relecture de code, et de scores agrégés de qualité/discipline.
Résultats clés
- Taux de réussite toutes tâches : Medium 28/29, Max 27/29, High 26/29, Xhigh 25/29, Low 23/29
- Correctifs équivalents : Medium 14/29, Max 13/29, High 12/29, Xhigh 11/29, Low 10/29
- Taux de réussite relecture de code : Medium 10/29, High 7/29, Max 8/29, Xhigh 4/29, Low 5/29
- Moyenne de la grille de relecture de code : Medium 2.716, High 2.509, Xhigh 2.482, Max 2.431, Low 2.426
- Risque d'empreinte (plus bas = mieux) : Low 0.155, Medium 0.189, High 0.206, Max 0.227, Xhigh 0.238
- Coût par tâche : Low 2,50 $, Medium 3,15 $, High 5,01 $, Xhigh 6,51 $, Max 8,84 $
- Durée par tâche : Low 383,8 s, Medium 450,7 s, High 716,4 s, Xhigh 803,8 s, Max 996,9 s
- Réussites équivalentes par dollar : Low 4,0, Medium 4,4, High 2,4, Xhigh 1,7, Max 1,5
L'auteur note qu'Opus 4.7 utilise la pensée adaptative — il alloue déjà un budget de raisonnement par tâche. Le paramètre d'effort biaise donc une politique déjà adaptative plutôt que d'ajouter de l'intelligence brute. Notamment, dans un PR (#1260), les réglages high et xhigh ont gaspillé du raisonnement supplémentaire à rechercher des hashs de commit de PR antérieurs et ont conclu « aucun travail nécessaire », tandis que medium et max ont correctement lu le flux de contrôle et produit un correctif.
Cela contraste avec GPT-5.5 dans Codex, qui montrait une courbe monotone intuitive où plus de raisonnement améliorait la qualité. Le rapport interactif complet avec des analyses détaillées par tâche est disponible sur stet.sh.
📖 Lire la source complète : r/ClaudeAI
👀 See Also

Google Chrome télécharge silencieusement le modèle Gemini Nano de 4 Go sans consentement
Chrome télécharge automatiquement un modèle Gemini Nano de 4 Go (weights.bin) sur les appareils des utilisateurs sans consentement ni possibilité de refus, et le retélécharge s'il est supprimé. Cela soulève des préoccupations juridiques (ePrivacy/RGPD) et environnementales à l'échelle du milliard d'appareils de Chrome.

OpenAI publie GPT-5.3-Codex-Spark en aperçu de recherche.
OpenAI a présenté GPT-5.3-Codex-Spark en prévisualisation de recherche, promettant des capacités de développement plus rapides.

Le benchmark Claude Code révèle un angle mort des juges IA : les bugs de pipeline attribués à tort aux capacités du modèle.
Un benchmark autonome exécuté par Claude Code (Opus 4.6) a initialement déclaré que MiniMax 'ne peut pas exécuter la tâche' en raison d'un bug de configuration du sandbox, puis a corrigé le verdict après avoir examiné les journaux du démon. Cet incident met en lumière comment les juges IA peuvent attribuer à tort, avec confiance, des problèmes d'infrastructure à des faiblesses du modèle.

Titre : Modèles locaux vs cloud : Qwen-3.6-27B, Gemma-4-31B, Claude Haiku, Codex-Spark sur la génération de code difficile
Un utilisateur a testé Qwen-3.6-27B (q4_k_m) localement sur une RTX 5080 par rapport à Gemma-4-31B, Claude Haiku 4.5 et Codex-Spark via API sur une tâche de code complexe. Seul Codex-Spark a produit un code complet (mais avec des erreurs d'import) ; tous les autres ont partiellement échoué. Coût : Gemma a utilisé 0,112 $ pour 803 000 tokens d'entrée.