Benchmark Apple Silicon : Performance de Qwen3-VL sur les M3, M4 et M5 Max pour la classification Vision LLM

✍️ OpenClawRadar📅 Publié: April 6, 2026🔗 Source
Benchmark Apple Silicon : Performance de Qwen3-VL sur les M3, M4 et M5 Max pour la classification Vision LLM
Ad

Configuration des tests et matériel

Un pipeline de classification par modèle de langage visionnaire a été testé sur des dessins techniques (PDF à diverses résolutions en mégapixels) en utilisant LM Studio avec le backend MLX, le streaming activé, le même jeu de test de 53 fichiers et la même invite. La tâche implique une classification où le modèle analyse une image et renvoie une réponse JSON structurée courte (~300-400 tokens), rendant l'inférence largement dominée par le préremplissage avec une génération de tokens minimale.

Matériel testé :

  • M3 Max : 40 cœurs GPU, 48 Go de RAM, bande passante mémoire de 400 Go/s
  • M4 Max Studio : 40 cœurs GPU, 64 Go de RAM, bande passante mémoire de 546 Go/s
  • M5 Max : 40 cœurs GPU, 64 Go de RAM, bande passante mémoire de 614 Go/s

Modèles testés

  • Qwen3-VL 8B : 8 milliards de paramètres, quantification MLX 4 bits, ~5,8 Go sur disque
  • Qwen3.5 9B : 9 milliards de paramètres (dense, attention hybride), quantification MLX 4 bits, ~6,2 Go sur disque
  • Qwen3-VL 32B : 32 milliards de paramètres, quantification MLX 4 bits, ~18 Go sur disque

Résultats des modèles 8B

Temps total par image pour Qwen3-VL 8B (4 bits) :

  • 4 MP : M3 Max 48 Go : 16,5 s, M4 Studio 64 Go : 15,8 s, M5 Max 64 Go : 9,0 s (le M5 est 83 % plus rapide que le M3)
  • 5 MP : M3 Max : 20,3 s, M4 Studio : 19,8 s, M5 Max : 11,5 s (77 % plus rapide)
  • 6 MP : M3 Max : 24,1 s, M4 Studio : 24,4 s, M5 Max : 14,0 s (72 % plus rapide)
  • 7,5 MP : M4 Studio : 32,7 s, M5 Max : 20,3 s

Le M3 Max et le M4 Studio sont pratiquement identiques sur le modèle 8B, avec un temps d'inférence total dans une marge de 3 à 5 % malgré une bande passante mémoire supérieure de 37 % pour le M4. Le M5 Max est environ 75 à 83 % plus rapide que les deux.

Ad

Pourquoi le M3 et le M4 ont une vitesse similaire

Le préremplissage (traitement de l'invite) dépend des cœurs de calcul GPU, pas de la bande passante mémoire. Les deux puces ont 40 cœurs GPU, donc la vitesse de préremplissage est identique. Pour les modèles de vision, le préremplissage domine : le TTFT (temps jusqu'au premier token) représente 70 à 85 % du temps d'inférence total car l'encodeur de vision effectue un travail de calcul intensif par image.

Le M4 montre son avantage en bande passante dans la génération de tokens : 76-80 T/s contre 60-64 T/s pour le M3 (25 % plus rapide), correspondant à l'écart de bande passante de 37 % (546 contre 400 Go/s). Cependant, pour les tâches de classification avec des sorties courtes (~300-400 tokens), la génération ne représente qu'environ 15 % du temps total, ce qui fait que l'avantage de vitesse de génération de 25 % se traduit par seulement 3 à 5 % d'amélioration de bout en bout.

Résultats des modèles 32B

Temps total par image pour Qwen3-VL 32B (4 bits) :

  • 2 MP : M3 Max 48 Go : 47,6 s, M4 Studio 64 Go : 35,3 s, M5 Max 64 Go : 21,2 s
  • 4 MP : M3 Max : 63,2 s, M4 Studio : 50,0 s, M5 Max : 27,4 s
  • 5 MP : M3 Max : 72,9 s, M4 Studio : 59,2 s, M5 Max : 30,7 s
  • 6 MP : M3 Max : 85,3 s, M4 Studio : 78,0 s, M5 Max : 35,6 s

Pour des tâches de génération plus longues comme la synthèse, la description ou la génération de code, l'avantage en bande passante du M4 serait plus important que dans cette charge de travail de classification.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Les meilleurs modèles d'IA présentent un écart de performance dans les langues non anglophones.
News

Les meilleurs modèles d'IA présentent un écart de performance dans les langues non anglophones.

Une analyse récente montre que les principaux modèles d'IA obtiennent de moins bonnes performances dans les langues autres que l'anglais, l'article ayant reçu 16 points et 3 commentaires sur Hacker News.

OpenClawRadar
Claude-Code v2.1.91 ajoute la persistance des résultats MCP, des contrôles d'exécution shell et des liens profonds multi-lignes.
News

Claude-Code v2.1.91 ajoute la persistance des résultats MCP, des contrôles d'exécution shell et des liens profonds multi-lignes.

Claude-Code v2.1.91 introduit une surcharge de persistance des résultats d'outils MCP via l'annotation _meta["anthropic/maxResultSizeChars"] prenant en charge jusqu'à 500 000 caractères, ajoute le paramètre disableSkillShellExecution et active les invites multi-lignes dans les liens profonds claude-cli://open?q= avec des sauts de ligne encodés.

OpenClawRadar
Deezer rapporte que 44 % des téléchargements quotidiens sont de la musique générée par l'IA
News

Deezer rapporte que 44 % des téléchargements quotidiens sont de la musique générée par l'IA

Deezer a annoncé que les morceaux générés par l'IA représentent désormais 44 % de toute la nouvelle musique téléchargée sur sa plateforme, avec près de 75 000 pistes IA téléchargées quotidiennement. Le système de détection de l'entreprise étiquette ces morceaux, les retire des recommandations et démonétise 85 % des streams IA en raison de fraudes.

OpenClawRadar
34 ans de ThinkPad : De l'IBM 700C aux stations de travail AI Lenovo
News

34 ans de ThinkPad : De l'IBM 700C aux stations de travail AI Lenovo

ThinkPad est commercialisé en continu depuis 1992 sous IBM et Lenovo, avec une continuité visuelle allant de la 700C à la P14s Gen 6 AMD de 2026, capable d'exécuter localement des charges de travail LLM de 70B.

OpenClawRadar