MLX Inférence : +71,8 tok/s avec Qwen3.5-35B, accélération 5,5x

Benchmarks de performance sur M2 Ultra

Les benchmarks sources évaluent l'inférence MLX sur un Mac Studio M2 Ultra avec 128 Go de mémoire unifiée, exécutant localement de grands modèles pour des charges de travail d'agents de codage. La vitesse de génération a été mesurée sur quatre modèles avec un débit de décodage en tokens/seconde pour différentes profondeurs de cache KV (256 tokens de sortie par exécution).

Données de performance des modèles

Qwen3.5-27B (dense, 8 bits) : 20,2 tok/s à 4K, 16,4 tok/s à 64K, 13,1 tok/s à 128K
Qwen3.5-35B-A3B (MoE, 8 bits) : 71,8 tok/s à 4K, 53,5 tok/s à 64K, 41,9 tok/s à 128K
Nemotron Super 120B (5 bits) : 36,4 tok/s à 4K, 31,2 tok/s à 64K, 28,4 tok/s à 128K
Qwen3.5-122B-A10B (MoE, 5 bits) : 40,6 tok/s à 4K, 29,4 tok/s à 64K, 23,1 tok/s à 128K

Le MoE 35B atteint un débit élevé car seulement 3B de ses 35B paramètres sont actifs par token. Nemotron Super 120B montre une dégradation minimale avec le contexte (baisse de 14 % de 4K à 64K) car 80 de ses 88 couches utilisent Mamba-2, qui a un coût constant par token.

Accélérations des fonctionnalités

Prédiction multi-token (MTP) : Les modèles Qwen 3.5 ont une tête de brouillon intégrée qui prédit le token suivant en parallèle. Avec une acceptation probabiliste à 90 %, le 122B passe de ~17 tok/s à 38,8 tok/s (accélération de 2,3x). La surcharge serveur est minime : une requête à prompt court via vllm-mlx génère à 39 tok/s, correspondant à la ligne de base.

SpecPrefill : Pour les prompts longs, un modèle de brouillon de 2B évalue l'importance des tokens via l'attention, puis la cible ne préremplit que les 20 % supérieurs. Sur le 122B à un contexte de 128K, le temps jusqu'au premier token (TTFT) passe de 19,3 minutes à 3,5 minutes (accélération de 5,5x). Cette fonctionnalité ne s'active que pour les prompts dépassant 8K tokens.

Comparaison MLX vs. llama.cpp

Benchmark de Qwen3.5-35B-A3B sur les deux piles (512 tokens générés après remplissage du cache KV) :

Contexte 32K : MLX 8 bits : 60,8 tok/s, llama.cpp FA ON (5 bits) : 54,85 tok/s, llama.cpp FA OFF : 36,45 tok/s
Contexte 64K : MLX 8 bits : 53,2 tok/s, llama.cpp FA ON (5 bits) : 45,84 tok/s, llama.cpp FA OFF : 24,47 tok/s
Contexte 128K : MLX 8 bits : 42,7 tok/s, llama.cpp FA ON (5 bits) : 34,48 tok/s, llama.cpp FA OFF : 13,73 tok/s

MLX utilise un noyau de décodage split-K en 2 passes (sdpa_vector_2pass) qui distribue jusqu'à 1024 groupes de threads à un contexte de 128K. La comparaison montre que MLX est compétitif avec llama.cpp pour les contextes longs.

Impact de l'architecture hybride

Les modèles testés utilisent des architectures hybrides avec moins de couches d'attention :

Qwen3.5-35B-A3B : 25 % de couches d'attention (10 sur 40), 71,8 tok/s à 4K, baisse de -25 % à 64K
Nemotron Super 120B : 9 % de couches d'attention (8 sur 88), 36,4 tok/s à 4K, baisse de -14 % à 64K

Qwen 3.5 utilise des couches GatedDeltaNet (récurrence linéaire) pour la majeure partie du réseau avec une attention standard pour seulement 25 % des couches. Moins de couches d'attention signifie moins de cache KV à scanner par token et moins de dégradation pour les contextes longs.

Améliorations récentes

L'écosystème MLX a trois couches qui ont connu un développement rapide. Le cœur MLX a reçu une refonte de la sécurité des threads (M par thread... [texte source tronqué]. Combiné avec le traitement par lots continu et le cache de préfixe, le 122B sert désormais des agents de codage de manière interactive à des longueurs de contexte auparavant impraticables.

📖 Lire la source complète : r/LocalLLaMA