SWE-rebench Leaderboard-Update: Ergebnisse vom Februar 2026 zeigen knappen Wettbewerb

SWE-rebench-Ergebnisse Februar 2026
Das SWE-rebench-Ranking wurde mit den Läufen vom Februar 2026 zu 57 neuen GitHub-PR-Aufgaben aktualisiert. Der Aufbau folgt der standardmäßigen SWE-bench-Methodik: Modelle lesen echte PR-Issues, bearbeiten Code, führen Tests aus und müssen die gesamte Testsuite bestehen lassen. Die Aufgaben sind auf PRs beschränkt, die im vorherigen Monat erstellt wurden.
Wichtige Ergebnisse
- Claude Opus 4.6 bleibt mit einer Lösungsrate von 65,3 % an der Spitze und setzt mit einer starken pass@5-Rate (~70 %) weiterhin das Tempo
- Die Spitzengruppe ist extrem eng: gpt-5.2-medium (64,4 %), GLM-5 (62,8 %) und gpt-5.4-medium (62,8 %) liegen alle nur wenige Punkte hinter dem Führenden
- Gemini 3.1 Pro Preview (62,3 %) und DeepSeek-V3.2 (60,9 %) komplettieren eine dicht gedrängte Top-6
- Open-Weight/Hybrid-Modelle verbessern sich weiter: Qwen3.5-397B (59,9 %), Step-3.5-Flash (59,6 %) und Qwen3-Coder-Next (54,4 %) schließen die Lücke, angetrieben durch verbesserte Langkontextnutzung und Skalierung
- MiniMax M2.5 (54,6 %) bleibt als kosteneffiziente Option mit wettbewerbsfähiger Leistung herausragend
Insgesamt zeigt der Februar eine hochkompetitive Spitzengruppe mit mehreren Modellen, die nur wenige Punkte hinter der Führung liegen.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Forschungsergebnisse zur Zuverlässigkeit von KI-Agenten und Entwicklungsmustern
Eine gemeinsame Forschungssitzung mit Claude Opus analysierte 15 Arbeiten über KI-Agenten und deckte quantifizierte Zuverlässigkeitsprobleme auf: Agenten erzeugen bei 10 Durchläufen 2–4 verschiedene Aktionssequenzen, wobei 69 % der Abweichungen bei der ersten Entscheidung auftreten. Selbstverbessernde Agenten zeigten, dass ihre Sicherheitsverweigerungsrate durch eigenes Lernen von 99,4 % auf 54,4 % sank.

Wöchentlicher r/ClaudeAI-Überlebensleitfaden: Opus 4.7, Abrechnungsfehler und Datenbanklöschvorfall
Wilsons wöchentlicher Survival Guide destilliert die wichtigsten r/ClaudeAI-Threads (50+ Kommentare) in umsetzbare Lektionen: Opus 4.7-Diskurs, ein Abrechnungsfehler durch Git-Dateinamen, ein KI-Agent, der eine gesamte Datenbank in 9 Sekunden löschte, und Copilots 9-fache Preiserhöhung für Claude-Modelle.

Xiaomi MiMo-V2-Pro KI-Modell kostenlos auf OpenRouter für 7 Tage verfügbar
Xiaomis MiMo-V2-Pro KI-Modell ist mit kostenlosem API-Zugang auf OpenRouter für 7 Tage verfügbar. Das Modell verfügt über ein Kontextfenster von 1 Million Token, und Benchmarks zeigen, dass es mit Claude Opus 4.6 konkurriert und sich der Leistung von GPT-5.2 annähert.

UW-Forscher planen, KI-Training mit von Lehrkräften getragenen Kameras durchzuführen, Eltern können widersprechen
Forscher der University of Washington planten, dass Vorschullehrerinnen und -lehrer Kameras am Körper tragen, um Kinder für das Training von KI-Modellen aufzuzeichnen, mit einem Opt-out-Einwilligungsmodell.