Qwen 3.6 27B F16 vs 8-Bit: Pacman-Test & MTP-Dekodierung

Ein Entwickler auf r/LocalLLaMA hat einen praktischen Code-Benchmark geteilt: Einseitig eine einseitige Pacman-Klon-Seite aus einer guten Eingabeaufforderung erstellen, drei Versuche, das beste Ergebnis behalten. Qwen 3.6 27B F16 produzierte zwei fast perfekte Spiele – das erste lokale Modell, das erfolgreich war. Der Wechsel zur 8-Bit-Quantisierung führte jedoch selbst nach fünf Versuchen zu keinen reproduzierbaren guten Ergebnissen, was die Behauptung untermauert, dass 8-Bit-Quantisierung bei komplexen generativen Aufgaben nicht verlustfrei ist.

Wichtige technische Erkenntnisse aus dem Beitrag:

Chat-Vorlage ist entscheidend: Die offizielle Qwen-Chat-Vorlage ist auf vLLM abgestimmt und enthält Fehler in llama.cpp und anderen Ausführungsprogrammen. Der Autor hat die Fehler iterativ behoben, und nach der Feinabstimmung fühlte sich das Modell wie „eine neue Stufe der Intelligenz“ an.
MTP-Spekulationsdekodierung variiert je nach Aufgabe: Bei deterministischen Aufgaben wie dem Programmieren lag die generative Tok/s zwischen 8 und 18 Tok/s (Basislinie ohne MTP: 6,6 Tok/s). Kreative Aufgaben erfahren weniger Beschleunigung.
Die Wahl des Frameworks beeinflusst die Geschwindigkeit mehr als die Codequalität: Qwen CLI schnitt überraschend gut ab – vergleichbar mit Claude Code in der Ausgabequalität, aber viel schneller, da die zusätzlichen Eingabeaufforderungen von Claude Code lokale Modelle verlangsamen. Bei einem langsamen Modell wie Qwen 3.6 27B mit ~6 Tok/s fügt jede zusätzliche Aufforderung schmerzhafte Latenz hinzu.
Nicht in die Kontextverwaltung eingreifen: Das native Kontext-Caching und die Komprimierung des Modells funktionieren gut. Plugins oder Tools, die den Cache oder Kontext manipulieren, verwirren das Modell und verschlechtern die Leistung.
Toolaufrufe und Subagenten funktionieren einwandfrei nach korrekter Reparatur der Chat-Vorlage. Kontextkomprimierung, Shell-Nutzung und parallele Subagenten funktionieren wie erwartet.

Der Autor warnt, dass die Ergebnisse stark von der Konfiguration des Ausführungsprogramms abhängen: Verwenden Sie F16-Gewichte, eine korrigierte Chat-Vorlage und vermeiden Sie schwere Frameworks, sofern Sie keine schnelle Inferenz haben. Das vollständig spielbare Pacman-Ergebnis ist verfügbar unter guigand.com/pacman.

📖 Read the full source: r/LocalLLaMA

Qwen 3.6 27B F16 besteht den Pacman-Codierungstest, aber 8-Bit-Quantisierungen scheitern — Wichtige Lektionen zu Vorlagen und MTP-spekulativer Dekodierung

👀 Siehe auch

Fable 5 in Claude Code: Kostenanalyse des ersten Tages — 210 Dollar API-Äquivalent, 0 Dollar bezahlt

Zillow-Full: Eine OpenClaw-Fähigkeit, die manuelle Immobilienrecherche in eine automatisierte Deal-Pipeline verwandelte

AI mit kleinen Bots erkunden: Künstliche Intelligenz-Agenten durch Nanobot-Tutoren verstehen

Git Pre-Commit-Hook verhindert, dass KI-Coding-Agents veraltete Dokumentation committen.