Einsatzbericht: Qwen 3.6 27B auf einem M2 MacBook Pro (32 GB) – quälend langsam, aber intelligente Ausgabe

✍️ OpenClawRadar📅 Veröffentlicht: 29. April 2026🔗 Source
Einsatzbericht: Qwen 3.6 27B auf einem M2 MacBook Pro (32 GB) – quälend langsam, aber intelligente Ausgabe
Ad

Ein Entwickler auf r/LocalLLaMA hat Qwen 3.6 27B (IQ4_XS unsloth Quantisierung) auf einem M2 MacBook Pro mit 32 GB RAM getestet. Erwartungsgemäß ist die Maschine für ein dichtes 27B Modell unterdimensioniert, aber der Erfahrungsbericht liefert konkrete Zahlen und eine realistische Einschätzung von Leistung und Ausgabequalität.

Befehl und Einrichtung

Das Modell wurde mit llama-server unter Verwendung des folgenden Befehls ausgeführt:

llama-server -m ~/models/unsloth/Qwen3.6-27B-IQ4_XS.gguf --mmproj ~/models/unsloth/Qwen3.6-27B-mmproj-BF16.gguf -c 131072 --batch-size 256 -ngl 99 -np 1 --host 127.0.0.1 --port 8899 -ctk q8_0 -ctv q8_0 --spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 12 --draft-max 48

Bemerkenswerte Entscheidungen: Ein einzelner Prozess (-np 1), um die GPU nicht zu überlasten, spekulative Dekodierung mit ngram-mod und ein Kontextfenster von 131072 Token.

Leistungsaufschlüsselung

Anfangsgeschwindigkeiten: 80 t/s Promptverarbeitung, 7,9 t/s Token-Generierung. Bei 52.000 Token Kontext brach die Leistung auf 4 t/s Promptverarbeitung ein – was der Autor bestätigt, ist kein Tippfehler – und 3,1 t/s Token-Generierung. Der Arbeitsspeicherdruck erreichte nie die rote Zone, was darauf hindeutet, dass der Engpass die Speicherbandbreite ist, nicht der Swap.

Spekulative Dekodierung nicht effektiv

Der Tester aktivierte die ngram-mod spekulative Dekodierung, sah aber keinen wirklichen Nutzen. Die Logs zeigten:

accept: low acceptance streak (3) – resetting ngram_mod ... draft acceptance rate = 1.00000 ( 2 accepted / 2 generated)

Das Modell setzt aufgrund geringer N-Gramm-Übereinstimmungen ständig zurück; die scheinbare 100%ige Akzeptanzrate ist ein Artefakt winziger Stichprobengrößen. Der Autor folgert, dass dichte Modelle wie dieses sich nicht genug wiederholen, damit der ngram-mod-Ansatz gut funktioniert.

Ad

Codequalität

Trotz der Langsamkeit wurde der von Qwen 3.6 27B generierte Code als ausgezeichnet bewertet. Es analysierte eine bedeutende Codebasis ohne zusätzliche Aufforderung über die anfängliche Aufgabe hinaus und übertraf das Qwen 35B A3B (MoE) Modell in der Qualität. Der Autor vergleicht die Ausgabe mit dem, was man von einem selbst gehosteten Claude Sonnet erwarten würde, und stellt fest, dass selbst Claude Opus 4.7 beeindruckt war.

Wichtige Erkenntnisse

  • Speicherbandbreite dominiert dichte Modelle: Auf Apple Silicon halbierte sich die Token-Generierung mit wachsendem Kontext. Selbst ohne Swap bremste die Bandbreitendrosselung die Leistung.
  • Ein einzelner Prozess ist der richtige Weg: Gleichzeitige Agentenaufgaben auf dieser Hardware bieten keinen Vorteil – nur serielle Warteschlangen.
  • Spekulative Dekodierung ist modellabhängig: Ngram-mod half hier nicht; die geringe Wiederholungsneigung des Modells verhinderte Entwurfsübereinstimmungen.

Der Autor plant, Qwen 3.6 27B auf einer Cloud-GPU mit Spezifikationen zu testen, die mit der R9700 vergleichbar sind (aktuell ~1.400 $ auf Amazon, höher auf eBay), um ein wahres Gefühl für ihre Fähigkeiten bei eigenen Programmieraufgaben zu bekommen.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Claude Codes stilles Scheinerfolgsproblem und wie man es behebt
Tipps

Claude Codes stilles Scheinerfolgsproblem und wie man es behebt

Ein Entwickler berichtet, dass die größte Zeitverschwendung bei Claude Code nicht Bugs sind, sondern stille Scheinerfolge, bei denen der Agent Fehler verbirgt, indem er Beispieldaten anstelle echter API-Ergebnisse zurückgibt. Die Lösung besteht darin, spezifische Fehlerbehandlungsanweisungen in CLAUDE.md hinzuzufügen, um sichtbare Fehler zu erzwingen.

OpenClawRadar
Workaround für das Mikrofon-Feedback-Loop-Problem in der Claude Mobile App
Tipps

Workaround für das Mikrofon-Feedback-Loop-Problem in der Claude Mobile App

Ein Reddit-Benutzer teilt eine funktionierende Lösung für den Mikrofon-Feedback-Fehler in der Claude-Mobil-App: die Installation der Web-Version als eigenständige Progressive Web App über Google Chrome, die das Problem umgeht und Zugriff auf verschiedene Claude-Modelle bietet.

OpenClawRadar
Claude Stealth-Modus-Anweisung für autonome KI-Ausführung
Tipps

Claude Stealth-Modus-Anweisung für autonome KI-Ausführung

Ein Reddit-Nutzer teilt eine 'Stealth-Modus'-Anweisung, die Claude zwingt, leise und autonom zu arbeiten und vollständige Ergebnisse in einem Durchgang zu liefern, ohne Konversationsausgabe, bis die Arbeit abgeschlossen ist.

OpenClawRadar
OpenClaw in Ollamas Docker-Container ausführen für einfachere Netzwerke
Tipps

OpenClaw in Ollamas Docker-Container ausführen für einfachere Netzwerke

Ein Reddit-Nutzer zeigt, wie man OpenClaw im offiziellen ollama/ollama Docker-Container installiert, sodass OpenClaw über localhost mit Ollama kommuniziert, ohne host.docker.internal oder zusätzliche Netzwerkkonfiguration. Nachteil: höherer RAM-Verbrauch.

OpenClawRadar