Einsatzbericht: Qwen 3.6 27B auf einem M2 MacBook Pro (32 GB) – quälend langsam, aber intelligente Ausgabe

Ein Entwickler auf r/LocalLLaMA hat Qwen 3.6 27B (IQ4_XS unsloth Quantisierung) auf einem M2 MacBook Pro mit 32 GB RAM getestet. Erwartungsgemäß ist die Maschine für ein dichtes 27B Modell unterdimensioniert, aber der Erfahrungsbericht liefert konkrete Zahlen und eine realistische Einschätzung von Leistung und Ausgabequalität.
Befehl und Einrichtung
Das Modell wurde mit llama-server unter Verwendung des folgenden Befehls ausgeführt:
llama-server -m ~/models/unsloth/Qwen3.6-27B-IQ4_XS.gguf --mmproj ~/models/unsloth/Qwen3.6-27B-mmproj-BF16.gguf -c 131072 --batch-size 256 -ngl 99 -np 1 --host 127.0.0.1 --port 8899 -ctk q8_0 -ctv q8_0 --spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 12 --draft-max 48
Bemerkenswerte Entscheidungen: Ein einzelner Prozess (-np 1), um die GPU nicht zu überlasten, spekulative Dekodierung mit ngram-mod und ein Kontextfenster von 131072 Token.
Leistungsaufschlüsselung
Anfangsgeschwindigkeiten: 80 t/s Promptverarbeitung, 7,9 t/s Token-Generierung. Bei 52.000 Token Kontext brach die Leistung auf 4 t/s Promptverarbeitung ein – was der Autor bestätigt, ist kein Tippfehler – und 3,1 t/s Token-Generierung. Der Arbeitsspeicherdruck erreichte nie die rote Zone, was darauf hindeutet, dass der Engpass die Speicherbandbreite ist, nicht der Swap.
Spekulative Dekodierung nicht effektiv
Der Tester aktivierte die ngram-mod spekulative Dekodierung, sah aber keinen wirklichen Nutzen. Die Logs zeigten:
accept: low acceptance streak (3) – resetting ngram_mod ... draft acceptance rate = 1.00000 ( 2 accepted / 2 generated)
Das Modell setzt aufgrund geringer N-Gramm-Übereinstimmungen ständig zurück; die scheinbare 100%ige Akzeptanzrate ist ein Artefakt winziger Stichprobengrößen. Der Autor folgert, dass dichte Modelle wie dieses sich nicht genug wiederholen, damit der ngram-mod-Ansatz gut funktioniert.
Codequalität
Trotz der Langsamkeit wurde der von Qwen 3.6 27B generierte Code als ausgezeichnet bewertet. Es analysierte eine bedeutende Codebasis ohne zusätzliche Aufforderung über die anfängliche Aufgabe hinaus und übertraf das Qwen 35B A3B (MoE) Modell in der Qualität. Der Autor vergleicht die Ausgabe mit dem, was man von einem selbst gehosteten Claude Sonnet erwarten würde, und stellt fest, dass selbst Claude Opus 4.7 beeindruckt war.
Wichtige Erkenntnisse
- Speicherbandbreite dominiert dichte Modelle: Auf Apple Silicon halbierte sich die Token-Generierung mit wachsendem Kontext. Selbst ohne Swap bremste die Bandbreitendrosselung die Leistung.
- Ein einzelner Prozess ist der richtige Weg: Gleichzeitige Agentenaufgaben auf dieser Hardware bieten keinen Vorteil – nur serielle Warteschlangen.
- Spekulative Dekodierung ist modellabhängig: Ngram-mod half hier nicht; die geringe Wiederholungsneigung des Modells verhinderte Entwurfsübereinstimmungen.
Der Autor plant, Qwen 3.6 27B auf einer Cloud-GPU mit Spezifikationen zu testen, die mit der R9700 vergleichbar sind (aktuell ~1.400 $ auf Amazon, höher auf eBay), um ein wahres Gefühl für ihre Fähigkeiten bei eigenen Programmieraufgaben zu bekommen.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claude Codes stilles Scheinerfolgsproblem und wie man es behebt
Ein Entwickler berichtet, dass die größte Zeitverschwendung bei Claude Code nicht Bugs sind, sondern stille Scheinerfolge, bei denen der Agent Fehler verbirgt, indem er Beispieldaten anstelle echter API-Ergebnisse zurückgibt. Die Lösung besteht darin, spezifische Fehlerbehandlungsanweisungen in CLAUDE.md hinzuzufügen, um sichtbare Fehler zu erzwingen.

Workaround für das Mikrofon-Feedback-Loop-Problem in der Claude Mobile App
Ein Reddit-Benutzer teilt eine funktionierende Lösung für den Mikrofon-Feedback-Fehler in der Claude-Mobil-App: die Installation der Web-Version als eigenständige Progressive Web App über Google Chrome, die das Problem umgeht und Zugriff auf verschiedene Claude-Modelle bietet.

Claude Stealth-Modus-Anweisung für autonome KI-Ausführung
Ein Reddit-Nutzer teilt eine 'Stealth-Modus'-Anweisung, die Claude zwingt, leise und autonom zu arbeiten und vollständige Ergebnisse in einem Durchgang zu liefern, ohne Konversationsausgabe, bis die Arbeit abgeschlossen ist.

OpenClaw in Ollamas Docker-Container ausführen für einfachere Netzwerke
Ein Reddit-Nutzer zeigt, wie man OpenClaw im offiziellen ollama/ollama Docker-Container installiert, sodass OpenClaw über localhost mit Ollama kommuniziert, ohne host.docker.internal oder zusätzliche Netzwerkkonfiguration. Nachteil: höherer RAM-Verbrauch.