Qwen 3.6 27B atteint une vitesse 2,5x avec le décodage spéculatif MTP sur llama.cpp

Un utilisateur de Reddit a compilé llama.cpp avec une PR en attente (#22673) qui active la prédiction multi-tokens (MTP) pour Qwen 3.6 27B. MTP utilise les couches de tenseurs intégrées du modèle pour le décodage spéculatif, revendiquant une accélération de 2,5x — passant d'environ 11 tok/s à 28 tok/s sur un Mac M2 Max 96 Go.
Détails clés
- Modèle : Qwen 3.6 27B (variante d'architecture Qwen2.5-3.0)
- Matériel testé : Mac M2 Max 96 Go
- Résultats : 28 tok/s avec MTP (contre ~11 tok/s sans)
- Support de contexte : Jusqu'à 262K tokens avec cache KV turbo4 sur Mac 48 Go
- Quantifications : Quants GGUF pré-convertis téléchargés par l'utilisateur sur
froggeric/Qwen3.6-27B-MTP-GGUF
Instructions de compilation
git clone --depth 1 https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin pull/22673/head:mtp-pr && git checkout mtp-pr
cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --target llama-cli llama-serverCommande serveur
llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
--mmproj mmproj-Qwen3.6-27B-f16.gguf \
--spec-type mtp --spec-draft-n-max 5 \
--cache-type-k turbo4 --cache-type-v turbo4 \
-c 262144 --temp 0.7 --top-k 20 -ngl 99 --port 8081Trois optimisations combinées :
--spec-type mtp --spec-draft-n-max 5: active le décodage spéculatif MTP (2,5x plus rapide)--cache-type-k turbo4 --cache-type-v turbo4: cache KV 4,25 bits (mémoire réduite au quart par rapport au 16 bits)-c 262144: fenêtre de contexte de 262K (tient dans 48 Go avec turbo4)
Recommandations matérielles
Des tableaux de quantification/cache KV pour Apple Silicon et GPU NVIDIA sont fournis dans la source pour les configurations à mémoire limitée (par exemple, IQ2_M sur Apple Silicon 16 Go avec contexte 48K). Le support vision (mmproj) est disponible sur les configurations 32 Go et plus.
Correctifs supplémentaires
L'utilisateur a également publié 7 correctifs pour le modèle de chat jinja de Qwen qui étaient cassés en raison d'un formatage spécifique à vLLM. Ils sont désormais compatibles avec llama.cpp et d'autres outils.
Note : Les fichiers GGUF existants sur Hugging Face n'incluent pas le support MTP — ils nécessitent une reconversion avec la PR appliquée. L'utilisateur prévient que les premiers téléchargements sont incomplets ; vérifiez l'état du dépôt Hugging Face.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Transcription YouTube MCP Améliore le Flux de Travail de Recherche de Claude
Un MCP de transcription YouTube permet à Claude d'extraire des transcriptions complètes avec horodatages à partir de liens YouTube, éliminant ainsi le basculement manuel entre onglets et le copier-coller. L'utilisateur rapporte des réponses nettement meilleures lorsque Claude dispose des transcriptions réelles plutôt que des résumés de l'utilisateur.

Gestionnaire de projet local de style Trello pour les agents OpenClaw
Un développeur a créé un outil local de gestion de projet similaire à Trello qui fonctionne sur la même machine que son agent OpenClaw, stockant les cartes sous forme de fichiers markdown avec un en-tête YAML. Le système utilise Node.js/Express pour l'API, React pour l'interface utilisateur, et permet à l'agent IA de lire/écrire directement des fichiers sur le système de fichiers.

Technique de Sciences Cognitives pour Booster la Créativité des LLM : Commande Slash /reframe pour Claude Code
Un utilisateur de Reddit a développé une commande slash /reframe pour Claude Code qui implémente une technique de science cognitive appelée oscillation distance-engagement, améliorant la résolution créative de problèmes de 40 % lors de tests sur trois LLM open-weight.

Agents IA de Pokemon Showdown construits avec des API LLM gratuites et appel d'outils
Un système qui utilise Llama 3, Qwen, Gemma via des niveaux d'API gratuits pour jouer de manière autonome à des combats Pokémon Showdown avec des appels d'outils structurés, prenant en charge les modes humain vs IA et IA vs IA.