SWE-rebench Leaderboard-Update: Ergebnisse vom Februar 2026 zeigen knappen Wettbewerb

✍️ OpenClawRadar📅 Veröffentlicht: 23. März 2026🔗 Source

SWE-rebench-Ergebnisse Februar 2026

Das SWE-rebench-Ranking wurde mit den Läufen vom Februar 2026 zu 57 neuen GitHub-PR-Aufgaben aktualisiert. Der Aufbau folgt der standardmäßigen SWE-bench-Methodik: Modelle lesen echte PR-Issues, bearbeiten Code, führen Tests aus und müssen die gesamte Testsuite bestehen lassen. Die Aufgaben sind auf PRs beschränkt, die im vorherigen Monat erstellt wurden.

Wichtige Ergebnisse

Claude Opus 4.6 bleibt mit einer Lösungsrate von 65,3 % an der Spitze und setzt mit einer starken pass@5-Rate (~70 %) weiterhin das Tempo
Die Spitzengruppe ist extrem eng: gpt-5.2-medium (64,4 %), GLM-5 (62,8 %) und gpt-5.4-medium (62,8 %) liegen alle nur wenige Punkte hinter dem Führenden
Gemini 3.1 Pro Preview (62,3 %) und DeepSeek-V3.2 (60,9 %) komplettieren eine dicht gedrängte Top-6
Open-Weight/Hybrid-Modelle verbessern sich weiter: Qwen3.5-397B (59,9 %), Step-3.5-Flash (59,6 %) und Qwen3-Coder-Next (54,4 %) schließen die Lücke, angetrieben durch verbesserte Langkontextnutzung und Skalierung
MiniMax M2.5 (54,6 %) bleibt als kosteneffiziente Option mit wettbewerbsfähiger Leistung herausragend

Insgesamt zeigt der Februar eine hochkompetitive Spitzengruppe mit mehreren Modellen, die nur wenige Punkte hinter der Führung liegen.

📖 Read the full source: r/LocalLLaMA

👀 Siehe auch

Nachrichten

Vier UX-/Produktlücken im Onboarding-Erlebnis von Claude identifiziert

Ein Nutzer identifizierte vier spezifische UX-/Produktlücken während der Einrichtung von Claude auf Desktop, Cowork, Dispatch und der iPhone-App im aktiven Gebrauch. Probleme umfassen Dispatch-Aufgaben, die in Endlosschleifen geraten, wenn der Desktop offline ist, einzelne persistente Threads in Dispatch, tab-verankerte Chat-Panels in Chrome und fehlende Google Drive-Dateien in der mobilen App-Wissensdatenbank-UI.

13. Apr. 2026, 20:11 UTC

OpenClawRadar

Nachrichten

Opus 4.7 Token-Effizienz: Deutsche Prompts verbrauchen bis zu 2x mehr Tokens als Englische

Ein Claude Pro-Abonnent berichtet, dass die Verwendung von Deutsch mit Opus 4.7 innerhalb von Sekunden 100% der Session-Tokens verbrauchte, während Englisch 37% benötigte. Die Ineffizienz des Tokenizers liegt an zusammengesetzten Substantiven und Umlauten, was zu einem 1,5- bis 2-fachen Token-Verbrauch führt.

10. Mai 2026, 06:18 UTC

OpenClawRadar

Nachrichten

Hivemoot-Kolonie: Ein Open-Source-Experiment für KI-Agenten auf GitHub

Hivemoot Colony ist ein Open-Source-Projekt, bei dem KI-Agenten kollaborative Entscheidungen in einem GitHub-Repository treffen. Die Agenten eröffnen nicht nur Pull-Requests (PRs), sondern gestalten auch autonom die Richtung des Projekts.

14. Feb. 2026, 01:45 UTC

OpenClawRadar

Nachrichten

Terry Tao über AI-Beweisprüfer: Lean, Zusammenarbeit und formale Mathematik

Terry Tao prognostiziert, dass Mathematiker zu Hunderten zusammenarbeiten und ihre Beweise von Computern wie Lean überprüfen lassen, nicht von Menschen. Dieser Auszug aus Quanta Magazine erkundet diese Vision.

9. Juni 2026, 12:17 UTC

OpenClawRadar