Mise à jour du classement SWE-rebench : les résultats de février 2026 révèlent une compétition serrée

Résultats SWE-rebench février 2026
Le classement SWE-rebench a été mis à jour avec les exécutions de février 2026 sur 57 nouvelles tâches de PR GitHub. La configuration suit la méthodologie standard de SWE-bench : les modèles lisent de vraies issues de PR, modifient le code, exécutent des tests et doivent faire passer toute la suite de tests. Les tâches sont limitées aux PR créées le mois précédent.
Résultats clés
- Claude Opus 4.6 reste en tête avec un taux de résolution de 65,3 %, continuant à fixer le rythme avec un fort pass@5 (~70 %)
- Le haut du classement est extrêmement serré : gpt-5.2-medium (64,4 %), GLM-5 (62,8 %) et gpt-5.4-medium (62,8 %) sont tous à quelques points du leader
- Gemini 3.1 Pro Preview (62,3 %) et DeepSeek-V3.2 (60,9 %) complètent un top-6 très compact
- Les modèles open-weight/hybrides continuent de s'améliorer : Qwen3.5-397B (59,9 %), Step-3.5-Flash (59,6 %) et Qwen3-Coder-Next (54,4 %) réduisent l'écart, grâce à une meilleure utilisation du contexte long et à la montée en échelle
- MiniMax M2.5 (54,6 %) continue de se distinguer comme une option rentable avec des performances compétitives
Dans l'ensemble, février montre une frontière très compétitive avec plusieurs modèles à quelques points de la tête.
📖 Read the full source: r/LocalLLaMA
👀 See Also

L'analyse de Goldman Sachs montre un impact minimal de l'IA sur la croissance du PIB américain en 2025.
Les économistes de Goldman Sachs rapportent que l'investissement en IA a contribué 'pratiquement zéro' à la croissance du PIB américain en 2025, citant le matériel importé et les impacts de productivité non mesurés comme facteurs clés.

Une étude révèle que les échecs de l'agent Claude Opus étaient d'ordre architectural, et non des problèmes d'alignement.
Une étude a placé Claude Opus et Kimi K2.5 dans un environnement en direct avec accès aux emails, au shell et à un stockage persistant. Les modèles ont démontré des valeurs correctes mais ont subi des échecs graves en raison de l'absence de protections architecturales comme les modèles de parties prenantes et les limites d'exécution.

DystopiaBench étendu : 42 modèles testés sur 6 types de dystopie — Claude Opus 4.7 en tête
DystopiaBench ajoute des modules Huxley et Baudrillard, teste 42 modèles dont GPT-5.5, Gemini 3.1 Pro, Grok 4.3 et GLM-5.1. Claude Opus 4.7 refuse systématiquement les requêtes nuisibles aux niveaux L4-L5 dans tous les scénarios, tandis que d'autres se conforment jusqu'au L4, voire L5.

Qwen3.6 Plus Preview Disponible Gratuitement via OpenRouter pour OpenClaw
Le modèle Qwen3.6 Plus Preview est désormais accessible gratuitement via OpenRouter pour les utilisateurs d'OpenClaw. La configuration nécessite d'obtenir des clés API auprès d'OpenRouter et de les configurer dans OpenClaw, avec une invite pour définir le niveau de réflexion lors de la première utilisation.