Lokale vs. Cloud-Modelle: Qwen-3.6, Gemma-4, Claude, Codex-Spark im Test

Ein Reddit-Benutzer verglich lokal ausgeführte Qwen-3.6-27B (GGUF q4_k_m) mit API-Äquivalenten: Qwen-3.6-27B über OpenRouter, Gemma-4-31B über OpenRouter, Claude Haiku 4.5 und GPT-Codex-Spark. Der Test bestand darin, eine Autoresearch-Schleife aus einem Designdokument zu implementieren – eine bewusst schwierige Aufgabe, um die Fehlerbereinigung zu bewerten, nicht die Erfolgsquote.

Hardware-Setup

CPU: Ryzen 7 7800X3D
RAM: 64 GB DDR5-6400
GPU: RTX 5080 (16 GB VRAM)
Lokales Modell: Qwen-3.6-27B q4_k_m (GGUF) – passt dank Quantisierung in 16 GB VRAM

Ergebnisse

Gemma-4-31B (API): Vollständig gescheitert. Schrieb ein Skelett mit nachgebildeten Modulen, keine Tests, keine Konfigurationsdateien (__init__.py, requirements.txt, pyproject.toml). Kosten: 0,112 $, 803k Kontext-Tokens verbraucht, 21k generiert.
Codex-Spark (API): Lieferte eine schöne Ordnerstruktur und Code, aber die Imports waren halluziniert. Keine Unit-Tests. Nutzte 1 % der 100 $/Monat Spark-Limits.
Claude Haiku 4.5 (API): Detaillierte Implementierung, aber fehlerhaft. (Weitere Details in der Quelle abgeschnitten.)
Qwen-3.6-27B (lokal q4_k_m): Nicht explizit bewertet, aber der Benutzer merkt an, dass quantisierte Inferenz die Qualität im Vergleich zur Vollpräzisions-API-Version verschlechtert.

Kontext

Der Benutzer argumentiert, dass typische Auswertungen lokaler Modelle triviale Aufgaben verwenden (z. B. Snake in HTML), bei denen sowohl lokale als auch Frontier-Modelle erfolgreich sind, wodurch lokale Modelle besser aussehen, als sie sind. Dieser Test verwendete ein echtes Arbeitsprojekt mit einem Designdokument; nur Codex-Spark lieferte vollständig geschriebenen (aber fehlerhaften) Code. Der Punkt: Lokale Modelle sind noch nicht bereit für komplexe Codegenerierung ohne erhebliche Korrekturen.

📖 Lies die vollständige Quelle: r/LocalLLaMA

Lokale vs. Cloud-Modelle: Qwen-3.6-27B, Gemma-4-31B, Claude Haiku, Codex-Spark bei schwerer Code-Generierung

Hardware-Setup

Ergebnisse

Kontext

👀 Siehe auch

Claude Desktop vs. Claude Code: Unterschiede in Systemprompts beeinflussen KI-Verhalten

Claude Managed Agents fügt Träumen, Ergebnisse, Multiagenten-Orchestrierung und Webhooks hinzu

EU zwingt Google, Android-KI für Dritte unter DMA zu öffnen

Deterministische vs. probabilistische Code-Generierung: Warum Buns vibe-codierte Rust-Konvertierung Warnsignale auslöst