Opus 4.6 La Pensée Étendue obtient de moins bons résultats sur les problèmes de diagrammes de physique

Problème de performance avec le mode de réflexion étendue
Un utilisateur sur r/ClaudeAI a rapporté avoir testé Opus 4.6 et Gemini 3.1 Pro sur des problèmes de physique nécessitant l'interprétation de diagrammes visuels. Les tests ont révélé une régression de performance spécifique chez Opus 4.6 lors de l'utilisation du mode de réflexion étendue.
Principales conclusions des tests
- Portée des tests : 5 problèmes de physique où « une grande partie du problème consiste à interpréter des diagrammes visuels présentant des scénarios »
- Opus 4.6 avec réflexion étendue : A échoué sur les 5 problèmes « complètement à cause d'une mauvaise interprétation fondamentale du diagramme »
- Gemini 3.1 Pro : A « réussi haut la main » les 5 problèmes
- Opus 4.6 sans réflexion étendue : A résolu les problèmes avec succès et était « bien plus rapide aussi »
L'utilisateur a décrit cela comme un « comportement vraiment étrange » puisque la réflexion étendue améliore généralement les performances, mais dans ce cas spécifique d'interprétation de diagrammes, elle a provoqué des échecs systématiques.
📖 Read the full source: r/ClaudeAI
👀 See Also

Anthropic autorise l'utilisation par abonnement de Claude via OpenClaw à partir de juin
Anthropic permettra l'utilisation par abonnement de Claude via OpenClaw à partir de juin, comme annoncé par le compte Twitter OpenClaw Dev.

Définir les agents d'IA : Le test du flux de travail
Une discussion sur Reddit s'interroge sur le fait que de nombreux produits d'agents IA sont essentiellement des chatbots avec une liste de tâches, proposant un test basé sur leur capacité à exécuter des flux de travail à travers plusieurs outils sans intervention manuelle.

Dégradation de la qualité contextuelle chez les agents d'IA : les taux d'hallucination augmentent avec le nombre de tokens
Les tests montrent que les taux d'hallucination augmentent d'environ 3 % à 10 000 tokens à environ 28 % à 200 000 tokens, avec une précision de rappel tombant en dessous de 90 % pour les informations de début de session une fois que le contexte dépasse 50 000 tokens.

Mise à jour OpenClaw 5.2 : interruption des tâches cron et des appels de plugin MCP
La mise à niveau d'OpenClaw 4.23 vers 5.2 rend les plugins d'outils MCP visibles mais non appelables par l'agent, et l'enregistrement des tâches cron via CLI échoue avec des erreurs d'appairage d'appareils.