MTPLX : Jetons 2,24x plus rapides sur Apple Silicon grâce aux têtes MTP natives

MTPLX est un moteur d'inférence pour Apple Silicon qui exploite les têtes de prédiction multi-tokens (MTP) intégrées d'un modèle comme rédacteurs spéculatifs. Le résultat clé : Qwen 3.6 27B 4-bit MLX passe de 28 tok/s à 63 tok/s (2,24× plus rapide) sur un MacBook Pro M5 Max avec température 0,6, top_p 0,95, top_k 20 — les paramètres exacts recommandés par Qwen pour le codage.
Comment ça marche
Contrairement à DFlash ou DDTree (qui nécessitent un modèle rédacteur externe et sont uniquement gloutons), MTPLX utilise les propres têtes MTP du modèle. Chaque tête MTP rédige séquentiellement, produisant des distributions de probabilité par token. Cela permet un échantillonnage par rejet exact avec température et correction résiduelle. Pas de rédacteur externe signifie pas d'utilisation mémoire supplémentaire.
Pour Qwen 3.6 27B (qui dispose de têtes MTP jusqu'à une profondeur de 5), la profondeur optimale trouvée après balayage de D2 à D5 était D3. Les profondeurs plus élevées (D4/D5) avaient un bon taux d'acceptation précoce, mais les positions plus profondes coûtaient plus de temps de vérification que de tokens économisés.
Statut vs DFlash / DDTree
DFlash MLX atteint une vitesse brute plus élevée, mais est limité à un échantillonnage glouton (température 0) uniquement, ce qui limite sévèrement son utilisation réelle. DDTree hérite des mêmes limitations. Les deux nécessitent un rédacteur externe. MTPLX fonctionne avec tout modèle qui conserve ses têtes MTP et supporte l'inférence complète avec échantillonnage à température.
Installation et utilisation
MTPLX est fourni avec une interface en ligne de commande complète avec les commandes suivantes :
mtplx start wizard— configuration guidée- Téléchargement et inspection de modèle avec détection de compatibilité MTP à quatre niveaux
- Profondeur configurable de 2 à 7+
- Serveur API compatible OpenAI/Anthropic, interface de chat navigateur, chat en terminal
- Suite de benchmarks, diagnostics de santé, contrôle de ventilateur avec arrêt sécurisé et restauration automatique en cas d'inactivité
- Suite de 562 tests incluse
Le moteur est construit sur un fork MLX modifié avec des kernels Metal personnalisés, des graphes de vérification compilés, un rollback GDN par bande d'innovation, et une tête LM requantifiée dédiée au draft.
À qui s'adresse-t-il
Développeurs exécutant des LLM locaux sur Apple Silicon qui ont besoin d'inférence à haut débit avec échantillonnage à température pour le codage ou l'écriture créative, sans sacrifier la qualité de sortie.
📖 Lire la source originale : r/LocalLLaMA
👀 See Also

Système de mémoire basé sur les fichiers de Claude Code : une alternative pragmatique aux bases de données vectorielles
Claude Code implémente un système de mémoire basé sur des fichiers en utilisant des fichiers .md avec des métadonnées frontmatter et un index MEMORY.md, évitant les bases de données vectorielles et les pipelines d'embedding en scannant les fichiers, construisant des manifestes et utilisant un petit modèle pour sélectionner les mémoires pertinentes.

PocketBot : l'application iOS utilise Claude pour générer des automatisations JavaScript déterministes à partir du langage naturel.
PocketBot est une application d'automatisation mobile iOS qui utilise Claude (via AWS Bedrock) pour transformer des requêtes en langage naturel en automations JavaScript déterministes. Les utilisateurs décrivent ce qu'ils veulent en langage simple, et Claude écrit un script JS autonome qui s'exécute selon un planning dans un environnement d'exécution isolé.

Serveur MCP Peers Connecte les Sessions de Codage IA pour la Collaboration
Peers est un serveur MCP local qui connecte les sessions Claude Code et Codex, leur permettant de se découvrir mutuellement, de collaborer via des blocs-notes partagés, de partager des artefacts comme des différences et des rapports de test, et de transférer le contexte de session sous forme de markdown structuré.

Tokenmeter : Application Windows gratuite pour suivre l'utilisation des tokens de Claude Code hors ligne
Tokenmeter est une application Windows gratuite et open-source qui lit les fichiers .jsonl locaux de Claude Code pour afficher l'utilisation des tokens, les coûts estimés, les économies de cache et une carte thermique d'activité sur 90 jours — le tout hors ligne.