Qwen 3.6 27B F16 besteht den Pacman-Codierungstest, aber 8-Bit-Quantisierungen scheitern — Wichtige Lektionen zu Vorlagen und MTP-spekulativer Dekodierung

✍️ OpenClawRadar📅 Veröffentlicht: 19. Mai 2026🔗 Source
Qwen 3.6 27B F16 besteht den Pacman-Codierungstest, aber 8-Bit-Quantisierungen scheitern — Wichtige Lektionen zu Vorlagen und MTP-spekulativer Dekodierung
Ad

Ein Entwickler auf r/LocalLLaMA hat einen praktischen Code-Benchmark geteilt: Einseitig eine einseitige Pacman-Klon-Seite aus einer guten Eingabeaufforderung erstellen, drei Versuche, das beste Ergebnis behalten. Qwen 3.6 27B F16 produzierte zwei fast perfekte Spiele – das erste lokale Modell, das erfolgreich war. Der Wechsel zur 8-Bit-Quantisierung führte jedoch selbst nach fünf Versuchen zu keinen reproduzierbaren guten Ergebnissen, was die Behauptung untermauert, dass 8-Bit-Quantisierung bei komplexen generativen Aufgaben nicht verlustfrei ist.

Wichtige technische Erkenntnisse aus dem Beitrag:

  • Chat-Vorlage ist entscheidend: Die offizielle Qwen-Chat-Vorlage ist auf vLLM abgestimmt und enthält Fehler in llama.cpp und anderen Ausführungsprogrammen. Der Autor hat die Fehler iterativ behoben, und nach der Feinabstimmung fühlte sich das Modell wie „eine neue Stufe der Intelligenz“ an.
  • MTP-Spekulationsdekodierung variiert je nach Aufgabe: Bei deterministischen Aufgaben wie dem Programmieren lag die generative Tok/s zwischen 8 und 18 Tok/s (Basislinie ohne MTP: 6,6 Tok/s). Kreative Aufgaben erfahren weniger Beschleunigung.
  • Die Wahl des Frameworks beeinflusst die Geschwindigkeit mehr als die Codequalität: Qwen CLI schnitt überraschend gut ab – vergleichbar mit Claude Code in der Ausgabequalität, aber viel schneller, da die zusätzlichen Eingabeaufforderungen von Claude Code lokale Modelle verlangsamen. Bei einem langsamen Modell wie Qwen 3.6 27B mit ~6 Tok/s fügt jede zusätzliche Aufforderung schmerzhafte Latenz hinzu.
  • Nicht in die Kontextverwaltung eingreifen: Das native Kontext-Caching und die Komprimierung des Modells funktionieren gut. Plugins oder Tools, die den Cache oder Kontext manipulieren, verwirren das Modell und verschlechtern die Leistung.
  • Toolaufrufe und Subagenten funktionieren einwandfrei nach korrekter Reparatur der Chat-Vorlage. Kontextkomprimierung, Shell-Nutzung und parallele Subagenten funktionieren wie erwartet.

Der Autor warnt, dass die Ergebnisse stark von der Konfiguration des Ausführungsprogramms abhängen: Verwenden Sie F16-Gewichte, eine korrigierte Chat-Vorlage und vermeiden Sie schwere Frameworks, sofern Sie keine schnelle Inferenz haben. Das vollständig spielbare Pacman-Ergebnis ist verfügbar unter guigand.com/pacman.

Ad

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Sprechen Sie mit Claw: Open-Source iOS-Sprachschnittstelle für OpenClaw Telegram Bots
Werkzeuge

Sprechen Sie mit Claw: Open-Source iOS-Sprachschnittstelle für OpenClaw Telegram Bots

Eine Open-Source-iOS-App, die Sprachinteraktion mit OpenClaw-betriebenen Telegram-Bots ermöglicht. Die App sendet Audio an einen lokalen Mac-Server zur Verarbeitung, wobei Antworten sowohl als Text als auch als Audio zurückgegeben werden.

OpenClawRadar
Bewahre meine Klaue: Backup-Dienst für OpenClaw-Arbeitsbereiche
Werkzeuge

Bewahre meine Klaue: Backup-Dienst für OpenClaw-Arbeitsbereiche

Keep My Claw ist ein Backup-Dienst, der OpenClaw-Arbeitsbereichsdaten lokal verschlüsselt, bevor sie in Cloudflare R2 hochgeladen werden. Er verwaltet Speicherdateien, Cron-Jobs, Skills, Zugangsdaten und Konfigurations-Snapshots mit geplanten Backups und Ein-Kommando-Wiederherstellungen.

OpenClawRadar
OpenClaw-Entwickler erzielt KI-Agenten-Durchbrüche mit Automatisierung von Uber- und Restaurantbuchungen
Werkzeuge

OpenClaw-Entwickler erzielt KI-Agenten-Durchbrüche mit Automatisierung von Uber- und Restaurantbuchungen

Ein OpenClaw-Entwickler hat erfolgreich KI-Agenten erstellt, die eigenständig Uber-Fahrten buchen und Restaurantreservierungen auf echten Websites durchführen und dabei Bot-Erkennung und CAPTCHAs mit einem Stack aus Stealth-Browsern, Residential-Proxys und CAPTCHA-Lösungen überwinden.

OpenClawRadar
civStation: Ein VLM-System zum Spielen von Civilization VI über natürliche Sprachbefehle
Werkzeuge

civStation: Ein VLM-System zum Spielen von Civilization VI über natürliche Sprachbefehle

civStation ist ein VLM-System zur Computernutzung, das Civilization VI spielt, indem es hochrangige natürliche Sprachbefehle in Spielaktionen übersetzt. Das System verwendet eine 3-Schichten-Architektur, die Strategie und Ausführung trennt, mit Unterstützung für menschliche Eingriffe.

OpenClawRadar