LLM-Benchmark: Qwen 27B schlägt 397B MoE?

Fünf Monate nach einer ersten unkontrollierten Messung hat AutoBe.dev einen ordentlichen Benchmark lokaler und Frontier-LLMs für die Backend-Code-Generierung mittels Function Calling veröffentlicht. Der Benchmark verwendet ein kontrolliertes Variablen-Setup mit einer echten Bewertungsmatrix und testet Modelle an der Generierung rekursiver Union-AST-Schemata über eine Function-Calling-Umgebung.

Wichtigste Ergebnisse

Die Function-Calling-Umgebung hat die Lücke zwischen Frontier- und lokalen Modellen bei der Backend-Generierung effektiv geschlossen. Insbesondere erreicht gpt-5.4 bei DB/API-Design etwa die gleichen Werte wie qwen3.5-35b-a3b, und claude-sonnet-4.6 erzielt bei Logik die gleichen Ergebnisse wie qwen3.5-27b.
Dies ist die letzte Runde mit Frontier-Modellen. Der monatliche Betrieb kostet rund 200–300 Millionen Tokens (~1.000–1.500 $ pro Modell bei GPT-5.5-Preisen). Ab nächstem Monat werden nur noch OpenRouter-Endpunkte unter 0,25 $/M Tokens oder Modelle, die auf ein Laptop mit 64 GB Unified Memory passen, berücksichtigt.
Frontend-Automatisierung wird im Juni/Juli zum Benchmark hinzugefügt, unter Verwendung des SDK, das AutoBe bereits ausgibt, um End-to-End-AI-erstellte Frontends zu betreiben (visuell grob, aber alle Funktionen funktionieren).

Unerwartete Umkehrungen

Mehrere Ergebnisse werden noch untersucht:

openai/gpt-5.4 erzielt niedrigere Werte als sein eigenes mini-Geschwistermodell.
deepseek-v4-pro landet einen Platz unter qwen3.5-35b-a3b und unterscheidet sich kaum von seinem eigenen Flash-Geschwistermodell.
Innerhalb der Qwen-Familie schlägt das dichte 27B-Modell jede MoE-Variante, einschließlich 397B-A17B.

Mögliche Erklärungen, die untersucht werden, umfassen das CoT-Compliance-Phänomen (größere/Frontier-Modelle neigen dazu, prozedurale Anweisungen der Umgebung zu überspringen) und Benchmark-Mängel (n=4 Referenzprojekte, enge Wertespanne, Umgebung bewertet eigene Pipeline).

Empfohlene Modelle

Drei sichere Kandidaten für den nächsten Monat:

openai/gpt-5.4-nano — 0,25 $/M Tokens
qwen/qwen3.6-27b — 0,195 $/M Tokens
deepseek/deepseek-v4-flash — 0,14 $/M Tokens

Alle liegen unter 0,25 $/M auf OpenRouter oder sind auf einem Laptop mit 64 GB Unified Memory lauffähig und handhaben Function Calling sauber.

Referenzen

Benchmark-Dashboard: https://autobe.dev/benchmark/
Generierungsergebnisse: GitHub: autobe-examples
GitHub-Repository: https://github.com/wrtnlabs/autobe

📖 Vollständige Quelle lesen: r/LocalLLaMA

Lokaler LLM-Benchmark: Backend-Generierung durch Funktionsaufruf – GLM, Qwen, DeepSeek im Vergleich

Wichtigste Ergebnisse

Unerwartete Umkehrungen

Empfohlene Modelle

Referenzen

👀 Siehe auch

Mistral-CEO warnt: Europa hat ein Zwei-Jahres-Fenster, um Abhängigkeit von US-KI-Infrastruktur zu vermeiden

Qwen 35B-A3B als ständig aktiver Agent auf 16 GB M4 Mac: Festplatten-I/O versagt vor RAM

Claude Code OAuth-Anmeldung Timeout-Fehler unter Windows

Snowflake entlässt Dokumentationsmitarbeiter nach Schulung einer KI als Ersatz