Benchmarks d'Inférence M5 Max vs M3 Max pour les Modèles Qwen sur oMLX

L'utilisateur Reddit /u/onil_gova a réalisé des benchmarks d'inférence comparant les MacBook Pro 16 pouces avec les processeurs M5 Max et M3 Max, tous deux équipés de 40 cœurs GPU et de 128 Go de mémoire unifiée. Les tests ont utilisé oMLX v0.2.23 et trois modèles Qwen 3.5 : le 122B-A10B MoE, le 35B-A3B MoE et le 27B dense.
Résultats des Benchmarks
À pp1024/tg128 (longueur de traitement de l'invite 1024, longueur de génération de tokens 128), le M5 Max a montré des améliorations de vitesse significatives :
- 35B-A3B MoE : 134,5 contre 80,3 tg tok/s (1,7 fois plus rapide)
- 122B-A10B MoE : 65,3 contre 46,1 tg tok/s (1,4 fois plus rapide)
- 27B dense : 32,8 contre 23,0 tg tok/s (1,4 fois plus rapide)
L'écart de performance s'accentue avec des contextes plus longs. À une longueur de contexte de 65K, le modèle 27B dense est tombé à 6,8 tg tok/s sur le M3 Max contre 19,6 tg tok/s sur le M5 Max (différence de 2,9 fois).
Performance de Préremplissage et de Traitement par Lots
Les avantages en préremplissage étaient encore plus importants, atteignant jusqu'à 4 fois plus rapide sur le M5 Max pour de longs contextes, attribués aux accélérateurs neuronaux GPU du M5 Max.
Les performances de traitement par lots ont montré des différences importantes pour les charges de travail agentiques :
- Le M5 Max a augmenté son débit de 2,54 fois avec une taille de lot multipliée par 4 sur le modèle 35B-A3B
- Le traitement par lots sur le M3 Max avec des modèles denses a dégradé les performances (0,80 fois avec un lot doublé sur le modèle 122B)
La différence de bande passante (614 Go/s sur le M5 Max contre 400 Go/s sur le M3 Max) est significative pour les boucles d'agents multi-étapes ou les appels d'outils parallèles.
Perspectives sur l'Efficacité du MoE
Les benchmarks ont révélé que le modèle 122B (avec 10 milliards de paramètres actifs) génère plus rapidement que le modèle 27B dense sur les deux machines. Cela démontre que le nombre de paramètres actifs détermine la vitesse d'inférence, et non la taille totale du modèle.
L'analyse interactive complète avec tous les graphiques et données est disponible à l'adresse : https://claude.ai/public/artifacts/c9fba245-e734-4b3b-be44-a6cabdec6f8f
📖 Read the full source: r/LocalLLaMA
👀 See Also

Cowork peut utiliser une instance Chrome sur une autre machine sans que vous le sachiez
Un utilisateur de Reddit a découvert que Cowork peut exécuter des tâches de navigation en utilisant une instance Chrome sur une machine distante (Windows) jumelée via une extension, signalée comme isLocal: false — ce qui n'est pas documenté.

Les Fonctionnalités Phares d'OpenClaw et les Risques (Avec Solutions)
Explorez les fonctionnalités remarquables d'OpenClaw, les risques potentiels qu'elles comportent et les solutions innovantes pour atténuer ces défis.

Clarification des capacités d'automatisation d'OpenClaw
OpenClaw n'exécute pas de tâches entièrement automatisées de manière indépendante ; il nécessite des instructions de l'utilisateur pour la configuration, agissant davantage comme un LLM traditionnel.

OpenClaw 5.4 ajoute les commandes /steer et /side : rediriger un agent en cours de tâche sans perdre le contexte
OpenClaw 5.4 introduit les commandes /steer et /side qui permettent de rediriger la direction actuelle d'une tâche d'un agent ou de lancer une conversation parallèle sans perdre le contexte de la session.