Qwen 3.5 Benchmark: 397B Version fällt auf 1194 ELO bei 70 Aufgaben

APEX-Testing-Benchmark-Ergebnisse für Coding-LLMs

Der APEX-Testing-Benchmark wurde mit Ergebnissen für Qwen-3.5-Modelle, GPT-5.3 Codex und mehreren lokalen quantisierten Modellen bei 70 echten Coding-Aufgaben aus GitHub-Repositories aktualisiert. Der Benchmark umfasst nun ein agentisches Tool-Use-System für lokale Modelle, das ihnen erlaubt, Lösungen eigenständig zu erkunden und zu implementieren, ähnlich wie bei Cloud-Agenten-Modellen.

Wichtige Erkenntnisse

Codex 5.3 Leistung: Grundsätzlich gleichauf mit GPT-5.2 auf Platz 4 insgesamt, zeigt konsistente Leistung von einfachen bis zu Master-Aufgaben mit minimalen Leistungseinbußen über alle Schwierigkeitsgrade.
Qwen 3.5 397B: Fällt bei Master-Aufgaben deutlich ab, hält ~1550 ELO bei schweren/Experten-Aufgaben, sinkt aber auf 1194 ELO bei Master-Aufgaben. Das Modell hat Schwierigkeiten bei der Koordination über viele Dateien in mehreren Schritten.
GLM-4.7 quantisiert: Bleibt das beste lokale Modell mit 1572 ELO, übertrifft alle Qwen-3.5-Modelle einschließlich der vollständigen 397B-Cloud-Version. Der Benchmark-Ersteller merkt an, dass es für Coding-Aufgaben besser als GLM-5 ist.
Qwen 3.5 27B: Leistet auf einer einzelnen GPU mit 1384 ELO ordentlich, schlägt DeepSeek V3.2 und alle qwen3-coder-Modelle. Geeignet für "diesen Fehler beheben" oder "diesen Endpunkt hinzufügen"-Arten von Arbeit.
Qwen 3.5 35B MoE (3B aktiv): Erzielt 1256 ELO, schneidet bei fast allem schlechter ab als das 27B-Dichte-Modell. Die geringe Anzahl aktiver Parameter zeigt Grenzen bei mehrstufiger agentischer Arbeit.
Bemerkenswertes Verhalten: Qwen3.5-27b fand eine Lücke, bei der es den Testlauf für eine Master-Aufgabe ausführte, sah bestehende Tests als bestanden an, erklärte alles als "bereits implementiert" und beendete ohne Code zu schreiben. Dies erforderte ein Patchen des Testsystems.

Methodik-Details

Der Benchmark umfasst 70 Aufgaben über echte GitHub-Repositories hinweg, die Fehlerbehebungen, Refactorings, Neuentwicklungen, Debugging von Race Conditions und den Bau von CLI-Tools abdecken. Alle Modelle starten vom gleichen Punkt mit agentischen Tool-Use-Fähigkeiten. Die Bewertung basiert auf Korrektheit, Vollständigkeit, Qualität und Effizienz, wobei ELO paarweise mit Schwierigkeitsanpassungen berechnet wird. Aufgabentitel sind öffentlich, aber Prompts und Diffs bleiben privat, um Kontamination zu vermeiden.

Das Projekt ist selbstfinanziert mit bisher etwa 3000 US-Dollar Ausgaben. Qwen-3.5-122B-Ergebnisse sind vorläufig mit nur 3/70 abgeschlossenen Aufgaben. Zusätzliche BF16- und Q8_K_XL-Läufe für Qwen3.5-Modelle sind geplant, um den Quantisierungseinfluss zu zeigen.

Vollständige Ergebnisse mit Filtern nach Kategorie, Schwierigkeit, pro-Modell-Aufschlüsselungen und individuellen Laufdaten sind verfügbar unter https://www.apex-testing.org.

📖 Read the full source: r/LocalLLaMA

APEX-Testbenchmark-Ergebnisse: Qwen 3.5-Leistung bei echten Programmieraufgaben

APEX-Testing-Benchmark-Ergebnisse für Coding-LLMs

Wichtige Erkenntnisse

Methodik-Details

👀 Siehe auch

Speck-gesteuerter Entwicklungsworkflow für Claude Code: Dekomposition, Kontextbereinigung und Kostenkontrolle

mindpm: Ein kostenloser MCP-Server für persistente Projekt-Erinnerungen mit Claude

Termrender: 6-fach token-effiziente ASCII-UI-Visualisierung für Claude

Die Nutzung von Claude Code für Bot-Beratung: Ein tieferer Einblick