Mise à jour du classement SWE-rebench : les résultats de février 2026 révèlent une compétition serrée

✍️ OpenClawRadar📅 Publié: March 23, 2026🔗 Source

Résultats SWE-rebench février 2026

Le classement SWE-rebench a été mis à jour avec les exécutions de février 2026 sur 57 nouvelles tâches de PR GitHub. La configuration suit la méthodologie standard de SWE-bench : les modèles lisent de vraies issues de PR, modifient le code, exécutent des tests et doivent faire passer toute la suite de tests. Les tâches sont limitées aux PR créées le mois précédent.

Résultats clés

Claude Opus 4.6 reste en tête avec un taux de résolution de 65,3 %, continuant à fixer le rythme avec un fort pass@5 (~70 %)
Le haut du classement est extrêmement serré : gpt-5.2-medium (64,4 %), GLM-5 (62,8 %) et gpt-5.4-medium (62,8 %) sont tous à quelques points du leader
Gemini 3.1 Pro Preview (62,3 %) et DeepSeek-V3.2 (60,9 %) complètent un top-6 très compact
Les modèles open-weight/hybrides continuent de s'améliorer : Qwen3.5-397B (59,9 %), Step-3.5-Flash (59,6 %) et Qwen3-Coder-Next (54,4 %) réduisent l'écart, grâce à une meilleure utilisation du contexte long et à la montée en échelle
MiniMax M2.5 (54,6 %) continue de se distinguer comme une option rentable avec des performances compétitives

Dans l'ensemble, février montre une frontière très compétitive avec plusieurs modèles à quelques points de la tête.

📖 Read the full source: r/LocalLLaMA

👀 See Also

News

Claude-Code v2.1.84 ajoute l'outil PowerShell, les variables d'environnement et de multiples corrections

Claude-Code v2.1.84 introduit un outil PowerShell pour Windows en version préliminaire facultative, ajoute des variables d'environnement pour la configuration des modèles et les délais d'attente du streaming, et inclut de nombreuses corrections de bugs et améliorations de performances.

Mar 26, 2026, 03:45 AM UTC

OpenClawRadar

News

Claude Code CC 2.1.124 et 2.1.126 : Rappel de dépassement du budget de modification de fichiers, mise à jour des instructions Harness, clarification attendue pour REPL, et retrait du rappel d'analyse de logiciels malveillants

CC 2.1.124 ajoute un rappel système pour les modifications de fichiers omises en raison de limites de budget, met à jour les instructions du harnais avec des points d'insertion explicites, et clarifie le comportement d'auto-attente REPL. CC 2.1.126 supprime le rappel post-lecture d'analyse de logiciels malveillants.

May 5, 2026, 02:15 AM UTC

OpenClawRadar

News

Claude Sonnet 4.6 bat Opus 4.6 sur l’exécution dans le benchmark de prompt

Un utilisateur de Reddit a soumis une invite complexe à Sonnet 4.6 et Opus 4.6 ; le modèle Sonnet a produit une réponse supérieure jugée sur la créativité et les exigences cachées.

May 17, 2026, 08:16 PM UTC

OpenClawRadar

News

Kimi K2.6 contre Claude Opus 4.7 : Test pratique avec un mod de panneau de quêtes pour Minetest

Un développeur a testé Kimi K2.6 et Claude Opus 4.7 pour construire un mod de panneau de primes Minetest/Luanti avec un backend TypeScript et une journalisation via Google Sheets. Opus a fonctionné correctement ; Kimi a échoué sur la partie intégration.

May 5, 2026, 02:15 PM UTC

OpenClawRadar