Lokaler LLM-Benchmark: Backend-Generierung durch Funktionsaufruf – GLM, Qwen, DeepSeek im Vergleich

✍️ OpenClawRadar📅 Veröffentlicht: 3. Mai 2026🔗 Source
Lokaler LLM-Benchmark: Backend-Generierung durch Funktionsaufruf – GLM, Qwen, DeepSeek im Vergleich
Ad

Fünf Monate nach einer ersten unkontrollierten Messung hat AutoBe.dev einen ordentlichen Benchmark lokaler und Frontier-LLMs für die Backend-Code-Generierung mittels Function Calling veröffentlicht. Der Benchmark verwendet ein kontrolliertes Variablen-Setup mit einer echten Bewertungsmatrix und testet Modelle an der Generierung rekursiver Union-AST-Schemata über eine Function-Calling-Umgebung.

Wichtigste Ergebnisse

  • Die Function-Calling-Umgebung hat die Lücke zwischen Frontier- und lokalen Modellen bei der Backend-Generierung effektiv geschlossen. Insbesondere erreicht gpt-5.4 bei DB/API-Design etwa die gleichen Werte wie qwen3.5-35b-a3b, und claude-sonnet-4.6 erzielt bei Logik die gleichen Ergebnisse wie qwen3.5-27b.
  • Dies ist die letzte Runde mit Frontier-Modellen. Der monatliche Betrieb kostet rund 200–300 Millionen Tokens (~1.000–1.500 $ pro Modell bei GPT-5.5-Preisen). Ab nächstem Monat werden nur noch OpenRouter-Endpunkte unter 0,25 $/M Tokens oder Modelle, die auf ein Laptop mit 64 GB Unified Memory passen, berücksichtigt.
  • Frontend-Automatisierung wird im Juni/Juli zum Benchmark hinzugefügt, unter Verwendung des SDK, das AutoBe bereits ausgibt, um End-to-End-AI-erstellte Frontends zu betreiben (visuell grob, aber alle Funktionen funktionieren).
Ad

Unerwartete Umkehrungen

Mehrere Ergebnisse werden noch untersucht:

  • openai/gpt-5.4 erzielt niedrigere Werte als sein eigenes mini-Geschwistermodell.
  • deepseek-v4-pro landet einen Platz unter qwen3.5-35b-a3b und unterscheidet sich kaum von seinem eigenen Flash-Geschwistermodell.
  • Innerhalb der Qwen-Familie schlägt das dichte 27B-Modell jede MoE-Variante, einschließlich 397B-A17B.

Mögliche Erklärungen, die untersucht werden, umfassen das CoT-Compliance-Phänomen (größere/Frontier-Modelle neigen dazu, prozedurale Anweisungen der Umgebung zu überspringen) und Benchmark-Mängel (n=4 Referenzprojekte, enge Wertespanne, Umgebung bewertet eigene Pipeline).

Empfohlene Modelle

Drei sichere Kandidaten für den nächsten Monat:

  • openai/gpt-5.4-nano — 0,25 $/M Tokens
  • qwen/qwen3.6-27b — 0,195 $/M Tokens
  • deepseek/deepseek-v4-flash — 0,14 $/M Tokens

Alle liegen unter 0,25 $/M auf OpenRouter oder sind auf einem Laptop mit 64 GB Unified Memory lauffähig und handhaben Function Calling sauber.

Referenzen

📖 Vollständige Quelle lesen: r/LocalLLaMA

Ad

👀 Siehe auch

Mistral-CEO warnt: Europa hat ein Zwei-Jahres-Fenster, um Abhängigkeit von US-KI-Infrastruktur zu vermeiden
Nachrichten

Mistral-CEO warnt: Europa hat ein Zwei-Jahres-Fenster, um Abhängigkeit von US-KI-Infrastruktur zu vermeiden

Mistral-CEO Arthur Mensch warnt, Europa habe zwei Jahre Zeit, um eigene KI-Infrastruktur aufzubauen – Chips, Energie, Rechenleistung –, oder riskiere, dauerhaft ein 'Vasallenstaat' der US-Tech-Giganten zu werden.

OpenClawRadar
Qwen 35B-A3B als ständig aktiver Agent auf 16 GB M4 Mac: Festplatten-I/O versagt vor RAM
Nachrichten

Qwen 35B-A3B als ständig aktiver Agent auf 16 GB M4 Mac: Festplatten-I/O versagt vor RAM

Die Ausführung von Qwen 35B-A3B mit llama.cpp auf einem 16GB M4 Mac funktioniert für Batch-Inferenz, aber eine ständig aktive agentische Schleife neben Claude Code und Codex CLI führt zu SSD-Konflikten, die Systeminstabilität und verpasste Cron-Jobs verursachen, obwohl der RAM ausreicht.

OpenClawRadar
Claude Code OAuth-Anmeldung Timeout-Fehler unter Windows
Nachrichten

Claude Code OAuth-Anmeldung Timeout-Fehler unter Windows

Claude Code Version 2.1.92 weist einen Fehler auf, bei dem Windows-Benutzer OAuth-Anmeldefehler mit einem Timeout-Fehler von 15000ms erleben, was den Zugang zum KI-Codierungsassistenten vollständig blockiert.

OpenClawRadar
Snowflake entlässt Dokumentationsmitarbeiter nach Schulung einer KI als Ersatz
Nachrichten

Snowflake entlässt Dokumentationsmitarbeiter nach Schulung einer KI als Ersatz

Snowflake bestätigte 'gezielte Personalreduzierungen' in den Teams für technische Dokumentation und Dokumentation, wobei Quellen von etwa 400 betroffenen Personen berichten. Das Unternehmen hatte acht Monate lang Dokumentationssitzungen per Bildschirmaufnahme aufgezeichnet, um Trainingsdatensätze aus den Arbeitsabläufen erfahrener Autoren zu erstellen.

OpenClawRadar