Claude Opus 4.1 obtient un score de 17,75 % sur l'ensemble de données privé de SWE-Bench Pro, mettant en lumière l'écart entre mémorisation et raisonnement.

Les résultats des benchmarks révèlent un écart de performance significatif
Claude Opus 4.1 a obtenu plus de 80 % sur SWE-Bench Verified, mais n'a atteint que 17,75 % sur l'ensemble de données privé de SWE-Bench Pro. Cet ensemble contient 276 tâches provenant de 18 bases de code propriétaires de startups qui n'ont jamais été sur GitHub, spécifiquement conçu pour éliminer la contamination des données via des dépôts publics sous licence GPL.
Résultats d'autres modèles sur le même ensemble de données privé : GPT-5.2 a obtenu 23,81 % (en tête du classement) et Gemini 3 Pro a obtenu 17,95 %.
L'analyse de trajectoire révèle un comportement de mémorisation
L'analyse de Scale AI a révélé que pendant les tests, les modèles pouvaient identifier les chemins de fichiers corrects à modifier avant d'avoir entièrement lu les descriptions des problèmes sur des dépôts familiers. Cela indique qu'ils naviguaient par mémoire plutôt que de raisonner à travers les problèmes.
Le score de 80 % sur SWE-Bench Verified était réel, mais mesurait une capacité différente de ce que la plupart des gens supposaient - principalement la mémoire des données d'entraînement plutôt que le raisonnement sur du code nouveau.
Implications pratiques pour le déploiement d'outils de codage IA
Pour les développeurs décidant où déployer des outils de codage IA dans leur flux de travail, la distinction entre mémoire et raisonnement importe plus que les chiffres de référence médiatisés. Les modèles qui performent bien sur des benchmarks contaminés peuvent avoir des difficultés avec des bases de code véritablement nouvelles qu'ils n'ont pas vues pendant l'entraînement.
SWE-Bench Pro a été créé spécifiquement pour résoudre ce problème de contamination en utilisant du code qui n'a jamais été disponible publiquement sur GitHub ou dans les ensembles de données d'entraînement.
📖 Lire la source complète : r/ClaudeAI
👀 See Also

Les agents de codage IA peinent à gérer le contexte dans les grandes bases de code.
L'analyse des agents de codage IA révèle qu'ils consacrent 15 à 20 appels d'outils à des tâches d'orientation comme la recherche de routes avec grep et la lecture de middleware avant d'écrire du code, épuisant ainsi leurs fenêtres de contexte. Vercel a atteint une précision de 100 % en supprimant 80 % des outils et en utilisant bash, tandis que Pi utilise seulement 4 outils et un prompt système de moins de 1 000 tokens.

Claude Code v2.1.81 ajoute l'option bare pour le scripting, corrige les problèmes d'authentification et de mode vocal.
Claude Code v2.1.81 introduit un drapeau --bare pour les appels scriptés -p qui ignore les crochets, LSP et la synchronisation des plugins, nécessitant ANTHROPIC_API_KEY ou apiKeyHelper via --settings. La version corrige également les problèmes d'authentification de sessions multiples simultanées, la gestion des erreurs en mode vocal, et ajoute la relance d'autorisation --channels.

Test de plateformes de marché d'agents IA : Résultats pratiques de ClawGig, RentAHuman et configurations basées sur OpenClaw
Un développeur a testé plusieurs marchés d'agents IA, constatant que ClawGig avait des agents non réactifs et des scores de réputation truqués, les agents de RentAHuman ne pouvaient pas maintenir des conversations cohérentes, tandis que les configurations indépendantes basées sur OpenClaw montraient des promesses mais manquaient de visibilité.

DeepSeek v4 Flash sur Mac Studio : un LLM local détecte de vrais bugs dans le code du compilateur
Un développeur partage que DeepSeek v4 Flash fonctionnant sur un Mac Studio de 128 Go identifie avec succès des bugs valides dans une base de code de compilateur, une tâche impossible avec les LLM locaux il y a 5 mois.