Qwen 3.6 27B atteint une vitesse 2,5x avec le décodage spéculatif MTP sur llama.cpp

✍️ OpenClawRadar📅 Publié: May 6, 2026🔗 Source
Qwen 3.6 27B atteint une vitesse 2,5x avec le décodage spéculatif MTP sur llama.cpp
Ad

Un utilisateur de Reddit a compilé llama.cpp avec une PR en attente (#22673) qui active la prédiction multi-tokens (MTP) pour Qwen 3.6 27B. MTP utilise les couches de tenseurs intégrées du modèle pour le décodage spéculatif, revendiquant une accélération de 2,5x — passant d'environ 11 tok/s à 28 tok/s sur un Mac M2 Max 96 Go.

Détails clés

  • Modèle : Qwen 3.6 27B (variante d'architecture Qwen2.5-3.0)
  • Matériel testé : Mac M2 Max 96 Go
  • Résultats : 28 tok/s avec MTP (contre ~11 tok/s sans)
  • Support de contexte : Jusqu'à 262K tokens avec cache KV turbo4 sur Mac 48 Go
  • Quantifications : Quants GGUF pré-convertis téléchargés par l'utilisateur sur froggeric/Qwen3.6-27B-MTP-GGUF

Instructions de compilation

git clone --depth 1 https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin pull/22673/head:mtp-pr && git checkout mtp-pr
cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --target llama-cli llama-server
Ad

Commande serveur

llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
  --mmproj mmproj-Qwen3.6-27B-f16.gguf \
  --spec-type mtp --spec-draft-n-max 5 \
  --cache-type-k turbo4 --cache-type-v turbo4 \
  -c 262144 --temp 0.7 --top-k 20 -ngl 99 --port 8081

Trois optimisations combinées :

  • --spec-type mtp --spec-draft-n-max 5 : active le décodage spéculatif MTP (2,5x plus rapide)
  • --cache-type-k turbo4 --cache-type-v turbo4 : cache KV 4,25 bits (mémoire réduite au quart par rapport au 16 bits)
  • -c 262144 : fenêtre de contexte de 262K (tient dans 48 Go avec turbo4)

Recommandations matérielles

Des tableaux de quantification/cache KV pour Apple Silicon et GPU NVIDIA sont fournis dans la source pour les configurations à mémoire limitée (par exemple, IQ2_M sur Apple Silicon 16 Go avec contexte 48K). Le support vision (mmproj) est disponible sur les configurations 32 Go et plus.

Correctifs supplémentaires

L'utilisateur a également publié 7 correctifs pour le modèle de chat jinja de Qwen qui étaient cassés en raison d'un formatage spécifique à vLLM. Ils sont désormais compatibles avec llama.cpp et d'autres outils.

Note : Les fichiers GGUF existants sur Hugging Face n'incluent pas le support MTP — ils nécessitent une reconversion avec la PR appliquée. L'utilisateur prévient que les premiers téléchargements sont incomplets ; vérifiez l'état du dépôt Hugging Face.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Transcription YouTube MCP Améliore le Flux de Travail de Recherche de Claude
Tools

Transcription YouTube MCP Améliore le Flux de Travail de Recherche de Claude

Un MCP de transcription YouTube permet à Claude d'extraire des transcriptions complètes avec horodatages à partir de liens YouTube, éliminant ainsi le basculement manuel entre onglets et le copier-coller. L'utilisateur rapporte des réponses nettement meilleures lorsque Claude dispose des transcriptions réelles plutôt que des résumés de l'utilisateur.

OpenClawRadar
Gestionnaire de projet local de style Trello pour les agents OpenClaw
Tools

Gestionnaire de projet local de style Trello pour les agents OpenClaw

Un développeur a créé un outil local de gestion de projet similaire à Trello qui fonctionne sur la même machine que son agent OpenClaw, stockant les cartes sous forme de fichiers markdown avec un en-tête YAML. Le système utilise Node.js/Express pour l'API, React pour l'interface utilisateur, et permet à l'agent IA de lire/écrire directement des fichiers sur le système de fichiers.

OpenClawRadar
Technique de Sciences Cognitives pour Booster la Créativité des LLM : Commande Slash /reframe pour Claude Code
Tools

Technique de Sciences Cognitives pour Booster la Créativité des LLM : Commande Slash /reframe pour Claude Code

Un utilisateur de Reddit a développé une commande slash /reframe pour Claude Code qui implémente une technique de science cognitive appelée oscillation distance-engagement, améliorant la résolution créative de problèmes de 40 % lors de tests sur trois LLM open-weight.

OpenClawRadar
Agents IA de Pokemon Showdown construits avec des API LLM gratuites et appel d'outils
Tools

Agents IA de Pokemon Showdown construits avec des API LLM gratuites et appel d'outils

Un système qui utilise Llama 3, Qwen, Gemma via des niveaux d'API gratuits pour jouer de manière autonome à des combats Pokémon Showdown avec des appels d'outils structurés, prenant en charge les modes humain vs IA et IA vs IA.

OpenClawRadar