Benchmark Flash-MOE sur M5 Max : 12,99 tok/s avec Qwen3.5-397B

✍️ OpenClawRadar📅 Publié: March 31, 2026🔗 Source
Benchmark Flash-MOE sur M5 Max : 12,99 tok/s avec Qwen3.5-397B
Ad

Résultats de performance

Un utilisateur a testé l'implémentation flash-moe sur un MacBook Pro M5 Max avec 128 Go de mémoire unifiée, exécutant le modèle mlx-community/Qwen3.5-397B-A17B-4bit. Le benchmark original de Dan Woods sur un M3 Max avec 48 Go de RAM avait atteint 4,36 tokens par seconde. Sur le M5 Max, la configuration de base avec quantification 4 bits et sans cache-io-split a atteint 12,48 tok/s. Avec le paramètre optimal --cache-io-split 4, la performance est passée à 12,99 tok/s, soit trois fois plus rapide que le benchmark original.

Analyse Cache-IO-Split

L'utilisateur a effectué un balayage complet des valeurs cache-io-split en utilisant le fork Anemll de flash-moe, qui ajoute le support Metal 4 NAX pour les puces M5+. Les résultats montrent que les splits 2 et 3 dégradent les performances, tandis que le split 4 fournit la meilleure optimisation :

  • cache-io-split 1 (aucun) : 12,48 tok/s, 28,4 ms d'E/S expert par token
  • cache-io-split 2 : 9,94 tok/s, 28,2 ms d'E/S expert par token
  • cache-io-split 3 : 9,99 tok/s, 36,1 ms d'E/S expert par token
  • cache-io-split 4 : 12,99 tok/s, 25,9 ms d'E/S expert par token
  • cache-io-split 5 : 12,64 tok/s, 27,5 ms d'E/S expert par token
  • cache-io-split 8 : 12,90 tok/s, 26,4 ms d'E/S expert par token

L'analyse suggère que le split 4 correspond au parallélisme interne du contrôleur SSD du M5 Max, tandis que des valeurs plus élevées ajoutent une surcharge de planification. La recommandation est d'utiliser --cache-io-split 4 ou aucun split, en évitant les splits 2 et 3.

Ad

Comparaison de quantification

Le test de quantification 2 bits contre 4 bits a révélé que le 2 bits n'offre aucun avantage de vitesse sur le M5 Max, la vitesse du SSD rendant les fichiers plus petits inutiles et la surcharge de déquantisation annulant tout gain. La qualité souffre considérablement avec 2 bits :

  • 4 bits : 12,99 tok/s, 3,64 perplexité sur WikiText-2
  • 2 bits : ~12,65 tok/s, 5,71 perplexité sur WikiText-2 (57 % pire)

La conclusion est d'utiliser la quantification 4 bits pour une meilleure qualité sans sacrifier la vitesse.

Détails techniques

Le benchmark a utilisé le fork Anemll disponible à https://github.com/Anemll/flash-moe. La performance soutenue est restée stable à 11,23 tok/s sur 1000 tokens sans dégradation. L'utilisateur a noté que les processus en arrière-plan utilisant Metal/GPU, comme LM Studio, peuvent affecter significativement les performances et devraient être fermés pendant les tests.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Complexité Temporelle MCP : L'Outil d'Analyse Statique Transmet la Complexité en Notation Grand O aux Agents d'IA de Codage
Tools

Complexité Temporelle MCP : L'Outil d'Analyse Statique Transmet la Complexité en Notation Grand O aux Agents d'IA de Codage

Time Complexity MCP est un serveur MCP open source qui effectue une analyse statique de code pour détecter la complexité Big-O, transmettant directement les résultats à des agents d'IA de codage comme Claude Code ou Copilot sans consommation de tokens. Il prend en charge JavaScript, TypeScript, Python, Java, Kotlin et Dart.

OpenClawRadar
PocketBot Beta : Agent IA iOS axé sur la confidentialité avec moteur hybride local/cloud
Tools

PocketBot Beta : Agent IA iOS axé sur la confidentialité avec moteur hybride local/cloud

PocketBot est un agent d'IA iOS qui fonctionne en arrière-plan, s'intègre aux App Intents, et utilise un moteur hybride : exécution locale pour les déclencheurs système et l'anonymisation des données personnelles, avec traitement cloud pour les tâches complexes comme la synthèse d'e-mails ou la réservation de vols.

OpenClawRadar
Protocole Pilot : Une pile réseau P2P pour les agents IA construite avec Claude
Tools

Protocole Pilot : Une pile réseau P2P pour les agents IA construite avec Claude

Un développeur a créé Pilot Protocol, une pile réseau virtuelle purement en espace utilisateur et pair-à-pair en Go, spécifiquement conçue pour les agents IA autonomes, permettant une communication directe sans infrastructure centralisée. Le protocole utilise le multiplexage UDP, la traversée NAT et le chiffrement de bout en bout, avec des benchmarks montrant un débit local de 89 Mo/s et un débit WAN transcontinental de 2,1 Mo/s.

OpenClawRadar
ExposureGuard MCP Server ajoute l'analyse de sécurité des domaines à Claude Desktop
Tools

ExposureGuard MCP Server ajoute l'analyse de sécurité des domaines à Claude Desktop

Un développeur a créé un serveur MCP pour l'analyse de sécurité des domaines en utilisant Claude Code, exposant quatre outils qui vérifient SPF, DMARC, SSL, les en-têtes de sécurité, DNSSEC, les ports ouverts, MX et HTTPS. Le serveur est disponible via pip install exposureguard-mcp avec un niveau gratuit de 100 appels API par jour.

OpenClawRadar