Taux d'acceptation MTP : le seuil des 50 % pour Gemma-4 26B

Un utilisateur de Reddit a testé la MTP (prédiction multi-tokens) avec mlx-vlm sur Gemma-4 (26B, 4 bits) et a constaté que les performances dépendent entièrement du taux d'acceptation des tokens candidats. Les mesures sur un M4 Max Studio montrent des seuils concrets.

Résultats des charges de travail

Génération de code : 75 tok/s → 114,8 tok/s (1,53× plus rapide) — taux d'acceptation : 66 % des slots
Prose longue : 75 tok/s → 71,1 tok/s (0,95×, quasiment inchangé) — taux d'acceptation : 31 % des slots
Sortie JSON : 51,3 tok/s → 25,6 tok/s (0,50× plus lent) — taux d'acceptation : 8 % des slots

Le seuil semble être d'environ 50 % d'acceptation. En dessous, la surcharge du décodage spéculatif l'emporte sur les gains.

Détails du test : le code était « écrire quelques fonctions Python pour faire X » ; la prose longue était « rédiger un essai de 800 mots sur la monnaie papier sous la dynastie Tang » ; la sortie JSON impliquait un regroupement d'éléments par similarité en une sortie structurée.

Astuce bonus : l'utilisateur note que le respect des instructions de structure JSON de Gemma est correct, mais l'activation de la sortie structurée (json_schema) ajoute environ 20 % de surcharge. Il recommande d'accepter un JSON légèrement approximatif et de le corriger à l'exécution. mlx-vlm ne supporte d'ailleurs pas json_schema pour le décodage spéculatif.

En résumé : La MTP est excellente pour le codage local mais peut dégrader les performances pour les tâches structurées ou de prose avec de faibles taux d'acceptation.

📖 Lire la source complète : r/LocalLLaMA

Taux d’acceptation MTP : le seuil de 50 % détermine le bénéfice du décodage spéculatif

Résultats des charges de travail

👀 See Also

Utilisation de tâches cron à contexte léger pour les conseils quotidiens d'OpenClaw

Comment prévenir la dégradation de CLAUDE.md : Traiter les règles comme du code

Comment réparer les approximations CSS de Claude Code avec un système de design

Compressez les fichiers CLAUDE.md pour réduire l'encombrement des prompts système dans Claude Code