Qwen3.6 35B MoE sur RTX 5080 : 56 tok/s à 128k, MTP nuisible

Le commit b9190 de llama.cpp a intégré le MTP (Multi-Token Prediction). Des benchmarks sur une RTX 5080 16GB avec Qwen3.6 35B MoE à 128k de contexte révèlent une conclusion claire : le MTP nuit aux performances lorsque le modèle ne tient pas entièrement sur le GPU.

La meilleure configuration (sans MTP)

Qwen3.6-35B-A3B Q4_K_XL --fit-target 1536 à 131k de contexte donne :

56 tok/s en génération
1 584 tok/s en traitement du prompt à 128k de contexte

Aucun drapeau MTP nécessaire.

Pourquoi le MTP ralentit le 35B MoE sur 16GB

Trois configurations testées avec des longueurs de contexte d'agent de codage :

27B IQ3+MTP : 12,45 Go, entièrement sur GPU — moyenne 73 tok/s (MTP aide)
35B Q4_K_XL+MTP : ~22 Go, déchargement partiel — moyenne 74 tok/s (MTP nuit)
35B Q8_0+MTP : ~36 Go, déchargement lourd — moyenne 46 tok/s

Sans MTP, le 35B Q4_K_XL atteint 97 tok/s avec --fit-target 0 (15 815 Mio VRAM) et 86 tok/s avec --fit-target 1536 (14 269 Mio). Avec MTP activé à --fit-target 1536, la vitesse chute à 74 tok/s (14 623 Mio) — un ralentissement de 23%.

La cause racine : le tampon de calcul du MTP réserve ~1,5 Go (--fit-target 1536), poussant environ 3 couches expertes MoE supplémentaires du GPU vers le CPU. Comme l'inférence MoE est limitée par les couches expertes côté CPU, le taux d'acceptation des jetons de 79% du MTP ne peut compenser la vitesse par étape plus lente.

Pour le modèle 27B (tient entièrement sur GPU), --fit-target 0 fonctionne avec ou sans MTP, donc pas de pénalité VRAM — le MTP augmente la vitesse de ~56 à 73 tok/s.

Règle empirique

Le MTP aide lorsque votre modèle tient sur le GPU. Il nuit lorsque le tampon de calcul du MTP force plus de couches vers le CPU. Sur les cartes 16GB avec 35B MoE, évitez le MTP.

Système de test complet : RTX 5080 16GB, Ryzen 9 9950X, 128GB RAM, llama.cpp b9204 (mainline). Drapeaux MTP courants : -np 1 --fit on -fa on -t 20 --no-mmap --jinja -ctk q8_0 -ctv q8_0 --spec-type draft-mtp --spec-draft-n-max 2.

📖 Lire la source complète : r/LocalLLaMA

RTX 5080 16 Go : Qwen3.6 35B MoE en contexte 128k — 56 tok/s, et pourquoi MTP n’aide pas

La meilleure configuration (sans MTP)

Pourquoi le MTP ralentit le 35B MoE sur 16GB

Règle empirique

👀 See Also

Atlassian active la collecte de données par défaut pour l'entraînement de l'IA

Analyse : Comparaison de l'industrie de l'IA avec les schémas de la crise des subprimes

Domo CDO : Arrêtez la FOMO sur l'IA, commencez par des tableurs

Comptage des glucides par IA échoue à la reproductibilité : 27 000 requêtes montrent un écart de 429 g sur une seule photo