Qwen 3.6 27B à 54 t/s avec MTP sur V100 32GB via llama.cpp

Un utilisateur sur r/LocalLLaMA rapporte des résultats impressionnants en exécutant Qwen 3.6 27B avec Multi-Token Prediction (MTP) sur un module V100 32GB SXM via un adaptateur PCIe. La configuration utilise la branche MTP d'am17an de llama.cpp et la quantification MTP GGUF correspondante. Spécifications clés : cache KV Q8_0 avec une limite de 200k, fonctionnant comme backend pour VS Code Copilot via llama-server.

Performances

Sans MTP : 29-30 tokens/seconde
Avec MTP : 54-55 tokens/seconde (limité à 150W)
Après 50k tokens de contexte : chute à 40-45 t/s

Branche : le fork MTP d'am17an. La compilation et l'exécution ont été simples — « tiré et编译é en une seule fois » avec llama-server fonctionnant sans problème. La configuration gère bien les appels d'outils et les sous-agents, et a fourni « des revues de code et des refactorisations très perspicaces » malgré la limite de VRAM (32 Go).

C'est particulièrement pertinent pour les développeurs qui exécutent des LLM sur du matériel de datacenter plus ancien comme les V100. MTP double effectivement le débit pour ce modèle, démontrant des gains pratiques pour les charges de travail d'assistant de codage.

📖 Lire la source complète : r/LocalLLaMA

Qwen 3.6 27B avec MTP sur V100 32GB : 54 t/s via la branche llama.cpp

Performances

👀 See Also

Développeur Indie Dévoile 'Ideanator', un Outil en Ligne de Commande pour Structurer des Idées Vagues avec des LLMs Locaux

Compétence SwiftUI Agent : Améliorer le développement de vues avec l'IA

50 applications populaires rétro-conçues en spécifications de conception lisibles par Claude : Modèles clés pour le clonage d'interface utilisateur

Lumyr : Génération de Tableaux de Bord via Claude avec Automatisation Python et Streamlit