Benchmarks d'Inférence M5 Max vs M3 Max pour les Modèles Qwen sur oMLX

✍️ OpenClawRadar📅 Publié: March 28, 2026🔗 Source
Benchmarks d'Inférence M5 Max vs M3 Max pour les Modèles Qwen sur oMLX
Ad

L'utilisateur Reddit /u/onil_gova a réalisé des benchmarks d'inférence comparant les MacBook Pro 16 pouces avec les processeurs M5 Max et M3 Max, tous deux équipés de 40 cœurs GPU et de 128 Go de mémoire unifiée. Les tests ont utilisé oMLX v0.2.23 et trois modèles Qwen 3.5 : le 122B-A10B MoE, le 35B-A3B MoE et le 27B dense.

Résultats des Benchmarks

À pp1024/tg128 (longueur de traitement de l'invite 1024, longueur de génération de tokens 128), le M5 Max a montré des améliorations de vitesse significatives :

  • 35B-A3B MoE : 134,5 contre 80,3 tg tok/s (1,7 fois plus rapide)
  • 122B-A10B MoE : 65,3 contre 46,1 tg tok/s (1,4 fois plus rapide)
  • 27B dense : 32,8 contre 23,0 tg tok/s (1,4 fois plus rapide)

L'écart de performance s'accentue avec des contextes plus longs. À une longueur de contexte de 65K, le modèle 27B dense est tombé à 6,8 tg tok/s sur le M3 Max contre 19,6 tg tok/s sur le M5 Max (différence de 2,9 fois).

Ad

Performance de Préremplissage et de Traitement par Lots

Les avantages en préremplissage étaient encore plus importants, atteignant jusqu'à 4 fois plus rapide sur le M5 Max pour de longs contextes, attribués aux accélérateurs neuronaux GPU du M5 Max.

Les performances de traitement par lots ont montré des différences importantes pour les charges de travail agentiques :

  • Le M5 Max a augmenté son débit de 2,54 fois avec une taille de lot multipliée par 4 sur le modèle 35B-A3B
  • Le traitement par lots sur le M3 Max avec des modèles denses a dégradé les performances (0,80 fois avec un lot doublé sur le modèle 122B)

La différence de bande passante (614 Go/s sur le M5 Max contre 400 Go/s sur le M3 Max) est significative pour les boucles d'agents multi-étapes ou les appels d'outils parallèles.

Perspectives sur l'Efficacité du MoE

Les benchmarks ont révélé que le modèle 122B (avec 10 milliards de paramètres actifs) génère plus rapidement que le modèle 27B dense sur les deux machines. Cela démontre que le nombre de paramètres actifs détermine la vitesse d'inférence, et non la taille totale du modèle.

L'analyse interactive complète avec tous les graphiques et données est disponible à l'adresse : https://claude.ai/public/artifacts/c9fba245-e734-4b3b-be44-a6cabdec6f8f

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also