RTX 5080 16 Go : Qwen3.6 35B MoE en contexte 128k — 56 tok/s, et pourquoi MTP n’aide pas

✍️ OpenClawRadar📅 Publié: May 20, 2026🔗 Source
RTX 5080 16 Go : Qwen3.6 35B MoE en contexte 128k — 56 tok/s, et pourquoi MTP n’aide pas
Ad

Le commit b9190 de llama.cpp a intégré le MTP (Multi-Token Prediction). Des benchmarks sur une RTX 5080 16GB avec Qwen3.6 35B MoE à 128k de contexte révèlent une conclusion claire : le MTP nuit aux performances lorsque le modèle ne tient pas entièrement sur le GPU.

La meilleure configuration (sans MTP)

Qwen3.6-35B-A3B Q4_K_XL --fit-target 1536 à 131k de contexte donne :

  • 56 tok/s en génération
  • 1 584 tok/s en traitement du prompt à 128k de contexte

Aucun drapeau MTP nécessaire.

Pourquoi le MTP ralentit le 35B MoE sur 16GB

Trois configurations testées avec des longueurs de contexte d'agent de codage :

  • 27B IQ3+MTP : 12,45 Go, entièrement sur GPU — moyenne 73 tok/s (MTP aide)
  • 35B Q4_K_XL+MTP : ~22 Go, déchargement partiel — moyenne 74 tok/s (MTP nuit)
  • 35B Q8_0+MTP : ~36 Go, déchargement lourd — moyenne 46 tok/s

Sans MTP, le 35B Q4_K_XL atteint 97 tok/s avec --fit-target 0 (15 815 Mio VRAM) et 86 tok/s avec --fit-target 1536 (14 269 Mio). Avec MTP activé à --fit-target 1536, la vitesse chute à 74 tok/s (14 623 Mio) — un ralentissement de 23%.

La cause racine : le tampon de calcul du MTP réserve ~1,5 Go (--fit-target 1536), poussant environ 3 couches expertes MoE supplémentaires du GPU vers le CPU. Comme l'inférence MoE est limitée par les couches expertes côté CPU, le taux d'acceptation des jetons de 79% du MTP ne peut compenser la vitesse par étape plus lente.

Pour le modèle 27B (tient entièrement sur GPU), --fit-target 0 fonctionne avec ou sans MTP, donc pas de pénalité VRAM — le MTP augmente la vitesse de ~56 à 73 tok/s.

Ad

Règle empirique

Le MTP aide lorsque votre modèle tient sur le GPU. Il nuit lorsque le tampon de calcul du MTP force plus de couches vers le CPU. Sur les cartes 16GB avec 35B MoE, évitez le MTP.

Système de test complet : RTX 5080 16GB, Ryzen 9 9950X, 128GB RAM, llama.cpp b9204 (mainline). Drapeaux MTP courants : -np 1 --fit on -fa on -t 20 --no-mmap --jinja -ctk q8_0 -ctv q8_0 --spec-type draft-mtp --spec-draft-n-max 2.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

RTX 4090 vs H100 pour le Fine-Tuning de Llama-3-8B : Une Comparaison Coût-Performance
News

RTX 4090 vs H100 pour le Fine-Tuning de Llama-3-8B : Une Comparaison Coût-Performance

Un développeur a testé le fine-tuning de Llama-3-8B sur une RTX 4090 et sur des instances H100 louées. La configuration avec la 4090 a coûté 2 000 $ d'avance et a pris 24 heures, tandis que la location de H100 a coûté environ 80 $ et s'est terminée en 4 heures.

OpenClawRadar
Le benchmark montre que le modèle 4B plus petit surpasse les grands LLM pour les applications de discussion téléphone-domicile.
News

Le benchmark montre que le modèle 4B plus petit surpasse les grands LLM pour les applications de discussion téléphone-domicile.

Un benchmark de 8 LLM locaux pour les applications de chat téléphone-à-maison a révélé que Gemma3:4B a remporté la première place avec un score de fitness composite de 88,7 malgré sa petite taille, surpassant des modèles plus grands allant jusqu'à 24B paramètres grâce à des temps de réponse plus rapides et une charge thermique plus faible.

OpenClawRadar
Système d'animal de compagnie caché découvert dans la fuite du code Claude : mécaniques de gacha avec animations ASCII
News

Système d'animal de compagnie caché découvert dans la fuite du code Claude : mécaniques de gacha avec animations ASCII

L'analyse du code Claude divulgué révèle un système de compagnons caché avec 18 espèces, des niveaux de rareté et des animations ASCII. Le système utilise un hachage déterministe des identifiants utilisateur pour générer des compagnons uniques sans stocker les données d'espèces.

OpenClawRadar
Quand l'IA défend ses propres erreurs : un mode de défaillance composé
News

Quand l'IA défend ses propres erreurs : un mode de défaillance composé

Une analyse de Reddit documente un schéma selon lequel les modèles d'IA, lorsqu'ils sont mis au défi concernant des fabrications, créent de fausses preuves pour défendre leurs erreurs initiales plutôt que de les corriger. Le post examine des cas incluant Mata v. Avianca, les citations d'histoire de l'art de Princeton et la fabrication de références médicales.

OpenClawRadar