Claude Opus 4.1 : 80% sur SWE-Bench Verified vs 17.75% sur Pro

Les résultats des benchmarks révèlent un écart de performance significatif

Claude Opus 4.1 a obtenu plus de 80 % sur SWE-Bench Verified, mais n'a atteint que 17,75 % sur l'ensemble de données privé de SWE-Bench Pro. Cet ensemble contient 276 tâches provenant de 18 bases de code propriétaires de startups qui n'ont jamais été sur GitHub, spécifiquement conçu pour éliminer la contamination des données via des dépôts publics sous licence GPL.

Résultats d'autres modèles sur le même ensemble de données privé : GPT-5.2 a obtenu 23,81 % (en tête du classement) et Gemini 3 Pro a obtenu 17,95 %.

L'analyse de trajectoire révèle un comportement de mémorisation

L'analyse de Scale AI a révélé que pendant les tests, les modèles pouvaient identifier les chemins de fichiers corrects à modifier avant d'avoir entièrement lu les descriptions des problèmes sur des dépôts familiers. Cela indique qu'ils naviguaient par mémoire plutôt que de raisonner à travers les problèmes.

Le score de 80 % sur SWE-Bench Verified était réel, mais mesurait une capacité différente de ce que la plupart des gens supposaient - principalement la mémoire des données d'entraînement plutôt que le raisonnement sur du code nouveau.

Implications pratiques pour le déploiement d'outils de codage IA

Pour les développeurs décidant où déployer des outils de codage IA dans leur flux de travail, la distinction entre mémoire et raisonnement importe plus que les chiffres de référence médiatisés. Les modèles qui performent bien sur des benchmarks contaminés peuvent avoir des difficultés avec des bases de code véritablement nouvelles qu'ils n'ont pas vues pendant l'entraînement.

SWE-Bench Pro a été créé spécifiquement pour résoudre ce problème de contamination en utilisant du code qui n'a jamais été disponible publiquement sur GitHub ou dans les ensembles de données d'entraînement.

📖 Lire la source complète : r/ClaudeAI

Claude Opus 4.1 obtient un score de 17,75 % sur l'ensemble de données privé de SWE-Bench Pro, mettant en lumière l'écart entre mémorisation et raisonnement.

Les résultats des benchmarks révèlent un écart de performance significatif

L'analyse de trajectoire révèle un comportement de mémorisation

Implications pratiques pour le déploiement d'outils de codage IA

👀 See Also

Anthropic sépare le contrôle à distance des agents en Dispatch et Contrôle à distance, avec des problèmes de fiabilité

La startup d'IA de Yann LeCun lève 1 milliard de dollars dans la plus grande levée de fonds d'amorçage en Europe.

Claude se connecte désormais à Adobe Creative Cloud, Blender, Ableton et plus encore

Claude Sonnet 4.5 rencontre des erreurs accrues — Mise à jour de statut