Jetons 2,24x plus rapides avec MTPLX sur Apple Silicon M5 Max

MTPLX est un moteur d'inférence pour Apple Silicon qui exploite les têtes de prédiction multi-tokens (MTP) intégrées d'un modèle comme rédacteurs spéculatifs. Le résultat clé : Qwen 3.6 27B 4-bit MLX passe de 28 tok/s à 63 tok/s (2,24× plus rapide) sur un MacBook Pro M5 Max avec température 0,6, top_p 0,95, top_k 20 — les paramètres exacts recommandés par Qwen pour le codage.

Comment ça marche

Contrairement à DFlash ou DDTree (qui nécessitent un modèle rédacteur externe et sont uniquement gloutons), MTPLX utilise les propres têtes MTP du modèle. Chaque tête MTP rédige séquentiellement, produisant des distributions de probabilité par token. Cela permet un échantillonnage par rejet exact avec température et correction résiduelle. Pas de rédacteur externe signifie pas d'utilisation mémoire supplémentaire.

Pour Qwen 3.6 27B (qui dispose de têtes MTP jusqu'à une profondeur de 5), la profondeur optimale trouvée après balayage de D2 à D5 était D3. Les profondeurs plus élevées (D4/D5) avaient un bon taux d'acceptation précoce, mais les positions plus profondes coûtaient plus de temps de vérification que de tokens économisés.

Statut vs DFlash / DDTree

DFlash MLX atteint une vitesse brute plus élevée, mais est limité à un échantillonnage glouton (température 0) uniquement, ce qui limite sévèrement son utilisation réelle. DDTree hérite des mêmes limitations. Les deux nécessitent un rédacteur externe. MTPLX fonctionne avec tout modèle qui conserve ses têtes MTP et supporte l'inférence complète avec échantillonnage à température.

Installation et utilisation

MTPLX est fourni avec une interface en ligne de commande complète avec les commandes suivantes :

mtplx start wizard — configuration guidée
Téléchargement et inspection de modèle avec détection de compatibilité MTP à quatre niveaux
Profondeur configurable de 2 à 7+
Serveur API compatible OpenAI/Anthropic, interface de chat navigateur, chat en terminal
Suite de benchmarks, diagnostics de santé, contrôle de ventilateur avec arrêt sécurisé et restauration automatique en cas d'inactivité
Suite de 562 tests incluse

Le moteur est construit sur un fork MLX modifié avec des kernels Metal personnalisés, des graphes de vérification compilés, un rollback GDN par bande d'innovation, et une tête LM requantifiée dédiée au draft.

À qui s'adresse-t-il

Développeurs exécutant des LLM locaux sur Apple Silicon qui ont besoin d'inférence à haut débit avec échantillonnage à température pour le codage ou l'écriture créative, sans sacrifier la qualité de sortie.

📖 Lire la source originale : r/LocalLLaMA