Qwen 3.6 27B : 2,5x plus rapide avec le décodage MTP sur llama.cpp

Un utilisateur de Reddit a compilé llama.cpp avec une PR en attente (#22673) qui active la prédiction multi-tokens (MTP) pour Qwen 3.6 27B. MTP utilise les couches de tenseurs intégrées du modèle pour le décodage spéculatif, revendiquant une accélération de 2,5x — passant d'environ 11 tok/s à 28 tok/s sur un Mac M2 Max 96 Go.

Détails clés

Modèle : Qwen 3.6 27B (variante d'architecture Qwen2.5-3.0)
Matériel testé : Mac M2 Max 96 Go
Résultats : 28 tok/s avec MTP (contre ~11 tok/s sans)
Support de contexte : Jusqu'à 262K tokens avec cache KV turbo4 sur Mac 48 Go
Quantifications : Quants GGUF pré-convertis téléchargés par l'utilisateur sur froggeric/Qwen3.6-27B-MTP-GGUF

Instructions de compilation

git clone --depth 1 https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin pull/22673/head:mtp-pr && git checkout mtp-pr
cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --target llama-cli llama-server

Commande serveur

llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
  --mmproj mmproj-Qwen3.6-27B-f16.gguf \
  --spec-type mtp --spec-draft-n-max 5 \
  --cache-type-k turbo4 --cache-type-v turbo4 \
  -c 262144 --temp 0.7 --top-k 20 -ngl 99 --port 8081

Trois optimisations combinées :

--spec-type mtp --spec-draft-n-max 5 : active le décodage spéculatif MTP (2,5x plus rapide)
--cache-type-k turbo4 --cache-type-v turbo4 : cache KV 4,25 bits (mémoire réduite au quart par rapport au 16 bits)
-c 262144 : fenêtre de contexte de 262K (tient dans 48 Go avec turbo4)

Recommandations matérielles

Des tableaux de quantification/cache KV pour Apple Silicon et GPU NVIDIA sont fournis dans la source pour les configurations à mémoire limitée (par exemple, IQ2_M sur Apple Silicon 16 Go avec contexte 48K). Le support vision (mmproj) est disponible sur les configurations 32 Go et plus.

Correctifs supplémentaires

L'utilisateur a également publié 7 correctifs pour le modèle de chat jinja de Qwen qui étaient cassés en raison d'un formatage spécifique à vLLM. Ils sont désormais compatibles avec llama.cpp et d'autres outils.

Note : Les fichiers GGUF existants sur Hugging Face n'incluent pas le support MTP — ils nécessitent une reconversion avec la PR appliquée. L'utilisateur prévient que les premiers téléchargements sont incomplets ; vérifiez l'état du dépôt Hugging Face.

📖 Lire la source complète : r/LocalLLaMA