Mise à jour des performances d'inférence MLX : Benchmarks et fonctionnalités d'avril 2026

Benchmarks de performance sur M2 Ultra
Les benchmarks sources évaluent l'inférence MLX sur un Mac Studio M2 Ultra avec 128 Go de mémoire unifiée, exécutant localement de grands modèles pour des charges de travail d'agents de codage. La vitesse de génération a été mesurée sur quatre modèles avec un débit de décodage en tokens/seconde pour différentes profondeurs de cache KV (256 tokens de sortie par exécution).
Données de performance des modèles
- Qwen3.5-27B (dense, 8 bits) : 20,2 tok/s à 4K, 16,4 tok/s à 64K, 13,1 tok/s à 128K
- Qwen3.5-35B-A3B (MoE, 8 bits) : 71,8 tok/s à 4K, 53,5 tok/s à 64K, 41,9 tok/s à 128K
- Nemotron Super 120B (5 bits) : 36,4 tok/s à 4K, 31,2 tok/s à 64K, 28,4 tok/s à 128K
- Qwen3.5-122B-A10B (MoE, 5 bits) : 40,6 tok/s à 4K, 29,4 tok/s à 64K, 23,1 tok/s à 128K
Le MoE 35B atteint un débit élevé car seulement 3B de ses 35B paramètres sont actifs par token. Nemotron Super 120B montre une dégradation minimale avec le contexte (baisse de 14 % de 4K à 64K) car 80 de ses 88 couches utilisent Mamba-2, qui a un coût constant par token.
Accélérations des fonctionnalités
Prédiction multi-token (MTP) : Les modèles Qwen 3.5 ont une tête de brouillon intégrée qui prédit le token suivant en parallèle. Avec une acceptation probabiliste à 90 %, le 122B passe de ~17 tok/s à 38,8 tok/s (accélération de 2,3x). La surcharge serveur est minime : une requête à prompt court via vllm-mlx génère à 39 tok/s, correspondant à la ligne de base.
SpecPrefill : Pour les prompts longs, un modèle de brouillon de 2B évalue l'importance des tokens via l'attention, puis la cible ne préremplit que les 20 % supérieurs. Sur le 122B à un contexte de 128K, le temps jusqu'au premier token (TTFT) passe de 19,3 minutes à 3,5 minutes (accélération de 5,5x). Cette fonctionnalité ne s'active que pour les prompts dépassant 8K tokens.
Comparaison MLX vs. llama.cpp
Benchmark de Qwen3.5-35B-A3B sur les deux piles (512 tokens générés après remplissage du cache KV) :
- Contexte 32K : MLX 8 bits : 60,8 tok/s, llama.cpp FA ON (5 bits) : 54,85 tok/s, llama.cpp FA OFF : 36,45 tok/s
- Contexte 64K : MLX 8 bits : 53,2 tok/s, llama.cpp FA ON (5 bits) : 45,84 tok/s, llama.cpp FA OFF : 24,47 tok/s
- Contexte 128K : MLX 8 bits : 42,7 tok/s, llama.cpp FA ON (5 bits) : 34,48 tok/s, llama.cpp FA OFF : 13,73 tok/s
MLX utilise un noyau de décodage split-K en 2 passes (sdpa_vector_2pass) qui distribue jusqu'à 1024 groupes de threads à un contexte de 128K. La comparaison montre que MLX est compétitif avec llama.cpp pour les contextes longs.
Impact de l'architecture hybride
Les modèles testés utilisent des architectures hybrides avec moins de couches d'attention :
- Qwen3.5-35B-A3B : 25 % de couches d'attention (10 sur 40), 71,8 tok/s à 4K, baisse de -25 % à 64K
- Nemotron Super 120B : 9 % de couches d'attention (8 sur 88), 36,4 tok/s à 4K, baisse de -14 % à 64K
Qwen 3.5 utilise des couches GatedDeltaNet (récurrence linéaire) pour la majeure partie du réseau avec une attention standard pour seulement 25 % des couches. Moins de couches d'attention signifie moins de cache KV à scanner par token et moins de dégradation pour les contextes longs.
Améliorations récentes
L'écosystème MLX a trois couches qui ont connu un développement rapide. Le cœur MLX a reçu une refonte de la sécurité des threads (M par thread... [texte source tronqué]. Combiné avec le traitement par lots continu et le cache de préfixe, le 122B sert désormais des agents de codage de manière interactive à des longueurs de contexte auparavant impraticables.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Claude Research Preview Ajoute le Contrôle Direct de l'Ordinateur pour l'Automatisation des Tâches
Anthropic a lancé une prévisualisation de recherche permettant à Claude de contrôler directement votre ordinateur pour accomplir des tâches telles que l'ouverture d'applications, la navigation dans les navigateurs et le remplissage de feuilles de calcul. Disponible pour les utilisateurs Pro et Max sur macOS, cela fonctionne via Claude Cowork et Claude Code avec un appairage mobile requis.

Erreurs élevées sur Claude Opus 4.7 : Mise à jour et à quoi s'attendre
Claude Opus 4.7 rencontre actuellement des erreurs élevées depuis le 2026-05-19T15:21Z. Consultez status.claude.com pour l'avancement et les résolutions.

Le bruit de fond du codage ambiance : comment le contenu IA étouffe les communautés de développeurs
rmoff fulmine contre le flux constant de contenu de mauvaise qualité généré par l'IA dans les communautés de développeurs, des dépôts GitHub inutiles aux articles de blog fantômes, et explique pourquoi cela chasse la participation organique.

PostmarketOS Mise à jour de février 2026 : Noyaux génériques et politique d'IA
PostmarketOS propose désormais des paquets de noyau génériques (linux-postmarketos-mainline, -stable, -lts) et a mis à jour sa politique d'IA pour interdire explicitement l'IA générative. Le projet a également connu des changements de contributeurs et des améliorations de l'intégration continue matérielle.