Lokaler LLM-Benchmark: Backend-Generierung durch Funktionsaufruf – GLM, Qwen, DeepSeek im Vergleich

Fünf Monate nach einer ersten unkontrollierten Messung hat AutoBe.dev einen ordentlichen Benchmark lokaler und Frontier-LLMs für die Backend-Code-Generierung mittels Function Calling veröffentlicht. Der Benchmark verwendet ein kontrolliertes Variablen-Setup mit einer echten Bewertungsmatrix und testet Modelle an der Generierung rekursiver Union-AST-Schemata über eine Function-Calling-Umgebung.
Wichtigste Ergebnisse
- Die Function-Calling-Umgebung hat die Lücke zwischen Frontier- und lokalen Modellen bei der Backend-Generierung effektiv geschlossen. Insbesondere erreicht
gpt-5.4bei DB/API-Design etwa die gleichen Werte wieqwen3.5-35b-a3b, undclaude-sonnet-4.6erzielt bei Logik die gleichen Ergebnisse wieqwen3.5-27b. - Dies ist die letzte Runde mit Frontier-Modellen. Der monatliche Betrieb kostet rund 200–300 Millionen Tokens (~1.000–1.500 $ pro Modell bei GPT-5.5-Preisen). Ab nächstem Monat werden nur noch OpenRouter-Endpunkte unter 0,25 $/M Tokens oder Modelle, die auf ein Laptop mit 64 GB Unified Memory passen, berücksichtigt.
- Frontend-Automatisierung wird im Juni/Juli zum Benchmark hinzugefügt, unter Verwendung des SDK, das AutoBe bereits ausgibt, um End-to-End-AI-erstellte Frontends zu betreiben (visuell grob, aber alle Funktionen funktionieren).
Unerwartete Umkehrungen
Mehrere Ergebnisse werden noch untersucht:
openai/gpt-5.4erzielt niedrigere Werte als sein eigenesmini-Geschwistermodell.deepseek-v4-prolandet einen Platz unterqwen3.5-35b-a3bund unterscheidet sich kaum von seinem eigenenFlash-Geschwistermodell.- Innerhalb der Qwen-Familie schlägt das dichte 27B-Modell jede MoE-Variante, einschließlich 397B-A17B.
Mögliche Erklärungen, die untersucht werden, umfassen das CoT-Compliance-Phänomen (größere/Frontier-Modelle neigen dazu, prozedurale Anweisungen der Umgebung zu überspringen) und Benchmark-Mängel (n=4 Referenzprojekte, enge Wertespanne, Umgebung bewertet eigene Pipeline).
Empfohlene Modelle
Drei sichere Kandidaten für den nächsten Monat:
openai/gpt-5.4-nano— 0,25 $/M Tokensqwen/qwen3.6-27b— 0,195 $/M Tokensdeepseek/deepseek-v4-flash— 0,14 $/M Tokens
Alle liegen unter 0,25 $/M auf OpenRouter oder sind auf einem Laptop mit 64 GB Unified Memory lauffähig und handhaben Function Calling sauber.
Referenzen
- Benchmark-Dashboard: https://autobe.dev/benchmark/
- Generierungsergebnisse: GitHub: autobe-examples
- GitHub-Repository: https://github.com/wrtnlabs/autobe
📖 Vollständige Quelle lesen: r/LocalLLaMA
👀 Siehe auch

Mistral-CEO warnt: Europa hat ein Zwei-Jahres-Fenster, um Abhängigkeit von US-KI-Infrastruktur zu vermeiden
Mistral-CEO Arthur Mensch warnt, Europa habe zwei Jahre Zeit, um eigene KI-Infrastruktur aufzubauen – Chips, Energie, Rechenleistung –, oder riskiere, dauerhaft ein 'Vasallenstaat' der US-Tech-Giganten zu werden.

Qwen 35B-A3B als ständig aktiver Agent auf 16 GB M4 Mac: Festplatten-I/O versagt vor RAM
Die Ausführung von Qwen 35B-A3B mit llama.cpp auf einem 16GB M4 Mac funktioniert für Batch-Inferenz, aber eine ständig aktive agentische Schleife neben Claude Code und Codex CLI führt zu SSD-Konflikten, die Systeminstabilität und verpasste Cron-Jobs verursachen, obwohl der RAM ausreicht.

Claude Code OAuth-Anmeldung Timeout-Fehler unter Windows
Claude Code Version 2.1.92 weist einen Fehler auf, bei dem Windows-Benutzer OAuth-Anmeldefehler mit einem Timeout-Fehler von 15000ms erleben, was den Zugang zum KI-Codierungsassistenten vollständig blockiert.

Snowflake entlässt Dokumentationsmitarbeiter nach Schulung einer KI als Ersatz
Snowflake bestätigte 'gezielte Personalreduzierungen' in den Teams für technische Dokumentation und Dokumentation, wobei Quellen von etwa 400 betroffenen Personen berichten. Das Unternehmen hatte acht Monate lang Dokumentationssitzungen per Bildschirmaufnahme aufgezeichnet, um Trainingsdatensätze aus den Arbeitsabläufen erfahrener Autoren zu erstellen.