Benchmark Flash-MOE sur M5 Max : 12,99 tok/s avec Qwen3.5-397B

Résultats de performance
Un utilisateur a testé l'implémentation flash-moe sur un MacBook Pro M5 Max avec 128 Go de mémoire unifiée, exécutant le modèle mlx-community/Qwen3.5-397B-A17B-4bit. Le benchmark original de Dan Woods sur un M3 Max avec 48 Go de RAM avait atteint 4,36 tokens par seconde. Sur le M5 Max, la configuration de base avec quantification 4 bits et sans cache-io-split a atteint 12,48 tok/s. Avec le paramètre optimal --cache-io-split 4, la performance est passée à 12,99 tok/s, soit trois fois plus rapide que le benchmark original.
Analyse Cache-IO-Split
L'utilisateur a effectué un balayage complet des valeurs cache-io-split en utilisant le fork Anemll de flash-moe, qui ajoute le support Metal 4 NAX pour les puces M5+. Les résultats montrent que les splits 2 et 3 dégradent les performances, tandis que le split 4 fournit la meilleure optimisation :
- cache-io-split 1 (aucun) : 12,48 tok/s, 28,4 ms d'E/S expert par token
- cache-io-split 2 : 9,94 tok/s, 28,2 ms d'E/S expert par token
- cache-io-split 3 : 9,99 tok/s, 36,1 ms d'E/S expert par token
- cache-io-split 4 : 12,99 tok/s, 25,9 ms d'E/S expert par token
- cache-io-split 5 : 12,64 tok/s, 27,5 ms d'E/S expert par token
- cache-io-split 8 : 12,90 tok/s, 26,4 ms d'E/S expert par token
L'analyse suggère que le split 4 correspond au parallélisme interne du contrôleur SSD du M5 Max, tandis que des valeurs plus élevées ajoutent une surcharge de planification. La recommandation est d'utiliser --cache-io-split 4 ou aucun split, en évitant les splits 2 et 3.
Comparaison de quantification
Le test de quantification 2 bits contre 4 bits a révélé que le 2 bits n'offre aucun avantage de vitesse sur le M5 Max, la vitesse du SSD rendant les fichiers plus petits inutiles et la surcharge de déquantisation annulant tout gain. La qualité souffre considérablement avec 2 bits :
- 4 bits : 12,99 tok/s, 3,64 perplexité sur WikiText-2
- 2 bits : ~12,65 tok/s, 5,71 perplexité sur WikiText-2 (57 % pire)
La conclusion est d'utiliser la quantification 4 bits pour une meilleure qualité sans sacrifier la vitesse.
Détails techniques
Le benchmark a utilisé le fork Anemll disponible à https://github.com/Anemll/flash-moe. La performance soutenue est restée stable à 11,23 tok/s sur 1000 tokens sans dégradation. L'utilisateur a noté que les processus en arrière-plan utilisant Metal/GPU, comme LM Studio, peuvent affecter significativement les performances et devraient être fermés pendant les tests.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Complexité Temporelle MCP : L'Outil d'Analyse Statique Transmet la Complexité en Notation Grand O aux Agents d'IA de Codage
Time Complexity MCP est un serveur MCP open source qui effectue une analyse statique de code pour détecter la complexité Big-O, transmettant directement les résultats à des agents d'IA de codage comme Claude Code ou Copilot sans consommation de tokens. Il prend en charge JavaScript, TypeScript, Python, Java, Kotlin et Dart.

PocketBot Beta : Agent IA iOS axé sur la confidentialité avec moteur hybride local/cloud
PocketBot est un agent d'IA iOS qui fonctionne en arrière-plan, s'intègre aux App Intents, et utilise un moteur hybride : exécution locale pour les déclencheurs système et l'anonymisation des données personnelles, avec traitement cloud pour les tâches complexes comme la synthèse d'e-mails ou la réservation de vols.

Protocole Pilot : Une pile réseau P2P pour les agents IA construite avec Claude
Un développeur a créé Pilot Protocol, une pile réseau virtuelle purement en espace utilisateur et pair-à-pair en Go, spécifiquement conçue pour les agents IA autonomes, permettant une communication directe sans infrastructure centralisée. Le protocole utilise le multiplexage UDP, la traversée NAT et le chiffrement de bout en bout, avec des benchmarks montrant un débit local de 89 Mo/s et un débit WAN transcontinental de 2,1 Mo/s.

ExposureGuard MCP Server ajoute l'analyse de sécurité des domaines à Claude Desktop
Un développeur a créé un serveur MCP pour l'analyse de sécurité des domaines en utilisant Claude Code, exposant quatre outils qui vérifient SPF, DMARC, SSL, les en-têtes de sécurité, DNSSEC, les ports ouverts, MX et HTTPS. Le serveur est disponible via pip install exposureguard-mcp avec un niveau gratuit de 100 appels API par jour.