Qwen 3.6 27B mit MTP 2,5x schneller: Anleitung & Benchmarks

Ein Reddit-Nutzer hat llama.cpp mit einem ausstehenden PR (#22673) kompiliert, der Multi-Token Prediction (MTP) für Qwen 3.6 27B ermöglicht. MTP nutzt die eingebauten Tensor-Schichten des Modells für spekulatives Decoding und verspricht einen 2,5-fachen Geschwindigkeitszuwachs – von etwa 11 tok/s auf 28 tok/s auf einem Mac M2 Max 96GB.

Wichtige Details

Modell: Qwen 3.6 27B (Qwen2.5-3.0-Architekturvariante)
Getestete Hardware: Mac M2 Max 96GB
Ergebnisse: 28 tok/s mit MTP (vs. ~11 tok/s ohne)
Kontextunterstützung: Bis zu 262K Token mit turbo4 KV-Cache auf 48GB Mac
Quantisierungen: Vom Benutzer hochgeladene, vorkonvertierte GGUF-Quantisierungen unter froggeric/Qwen3.6-27B-MTP-GGUF

Kompilierungsanleitung

git clone --depth 1 https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin pull/22673/head:mtp-pr && git checkout mtp-pr
cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --target llama-cli llama-server

Server-Befehl

llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
  --mmproj mmproj-Qwen3.6-27B-f16.gguf \
  --spec-type mtp --spec-draft-n-max 5 \
  --cache-type-k turbo4 --cache-type-v turbo4 \
  -c 262144 --temp 0.7 --top-k 20 -ngl 99 --port 8081

Drei Optimierungen kombiniert:

--spec-type mtp --spec-draft-n-max 5: Aktiviert MTP-spekulatives Decoding (2,5x schneller)
--cache-type-k turbo4 --cache-type-v turbo4: 4,25-Bit-KV-Cache (viertel Speicherplatz im Vergleich zu 16-Bit)
-c 262144: 262K-Kontextfenster (passt mit turbo4 in 48GB)

Hardware-Empfehlungen

Quantisierungs- und KV-Cache-Tabellen für Apple Silicon und NVIDIA-GPUs sind in der Quelle für speicherbegrenzte Konfigurationen verfügbar (z.B. IQ2_M auf 16GB Apple Silicon mit 48K Kontext). Vision-Unterstützung (mmproj) ist auf 32GB+-Konfigurationen verfügbar.

Zusätzliche Korrekturen

Der Nutzer hat außerdem 7 Korrekturen für die kaputten Qwen Jinja-Chat-Templates veröffentlicht, die aufgrund vLLM-spezifischer Formatierung defekt waren. Diese sind nun kompatibel mit llama.cpp und anderen Tools.

Hinweis: Bestehende GGUF-Dateien auf Hugging Face enthalten keine MTP-Unterstützung – sie müssen mit dem PR neu konvertiert werden. Der Nutzer warnt, dass erste Uploads unvollständig sind; Status des Hugging-Face-Repos überprüfen.

📖 Vollständige Quelle lesen: r/LocalLLaMA