Qwen3-VL Benchmark: M5 Max 83% Plus Rapide que M3/M4

Configuration des tests et matériel

Un pipeline de classification par modèle de langage visionnaire a été testé sur des dessins techniques (PDF à diverses résolutions en mégapixels) en utilisant LM Studio avec le backend MLX, le streaming activé, le même jeu de test de 53 fichiers et la même invite. La tâche implique une classification où le modèle analyse une image et renvoie une réponse JSON structurée courte (~300-400 tokens), rendant l'inférence largement dominée par le préremplissage avec une génération de tokens minimale.

Matériel testé :

M3 Max : 40 cœurs GPU, 48 Go de RAM, bande passante mémoire de 400 Go/s
M4 Max Studio : 40 cœurs GPU, 64 Go de RAM, bande passante mémoire de 546 Go/s
M5 Max : 40 cœurs GPU, 64 Go de RAM, bande passante mémoire de 614 Go/s

Modèles testés

Qwen3-VL 8B : 8 milliards de paramètres, quantification MLX 4 bits, ~5,8 Go sur disque
Qwen3.5 9B : 9 milliards de paramètres (dense, attention hybride), quantification MLX 4 bits, ~6,2 Go sur disque
Qwen3-VL 32B : 32 milliards de paramètres, quantification MLX 4 bits, ~18 Go sur disque

Résultats des modèles 8B

Temps total par image pour Qwen3-VL 8B (4 bits) :

4 MP : M3 Max 48 Go : 16,5 s, M4 Studio 64 Go : 15,8 s, M5 Max 64 Go : 9,0 s (le M5 est 83 % plus rapide que le M3)
5 MP : M3 Max : 20,3 s, M4 Studio : 19,8 s, M5 Max : 11,5 s (77 % plus rapide)
6 MP : M3 Max : 24,1 s, M4 Studio : 24,4 s, M5 Max : 14,0 s (72 % plus rapide)
7,5 MP : M4 Studio : 32,7 s, M5 Max : 20,3 s

Le M3 Max et le M4 Studio sont pratiquement identiques sur le modèle 8B, avec un temps d'inférence total dans une marge de 3 à 5 % malgré une bande passante mémoire supérieure de 37 % pour le M4. Le M5 Max est environ 75 à 83 % plus rapide que les deux.

Pourquoi le M3 et le M4 ont une vitesse similaire

Le préremplissage (traitement de l'invite) dépend des cœurs de calcul GPU, pas de la bande passante mémoire. Les deux puces ont 40 cœurs GPU, donc la vitesse de préremplissage est identique. Pour les modèles de vision, le préremplissage domine : le TTFT (temps jusqu'au premier token) représente 70 à 85 % du temps d'inférence total car l'encodeur de vision effectue un travail de calcul intensif par image.

Le M4 montre son avantage en bande passante dans la génération de tokens : 76-80 T/s contre 60-64 T/s pour le M3 (25 % plus rapide), correspondant à l'écart de bande passante de 37 % (546 contre 400 Go/s). Cependant, pour les tâches de classification avec des sorties courtes (~300-400 tokens), la génération ne représente qu'environ 15 % du temps total, ce qui fait que l'avantage de vitesse de génération de 25 % se traduit par seulement 3 à 5 % d'amélioration de bout en bout.

Résultats des modèles 32B

Temps total par image pour Qwen3-VL 32B (4 bits) :

2 MP : M3 Max 48 Go : 47,6 s, M4 Studio 64 Go : 35,3 s, M5 Max 64 Go : 21,2 s
4 MP : M3 Max : 63,2 s, M4 Studio : 50,0 s, M5 Max : 27,4 s
5 MP : M3 Max : 72,9 s, M4 Studio : 59,2 s, M5 Max : 30,7 s
6 MP : M3 Max : 85,3 s, M4 Studio : 78,0 s, M5 Max : 35,6 s

Pour des tâches de génération plus longues comme la synthèse, la description ou la génération de code, l'avantage en bande passante du M4 serait plus important que dans cette charge de travail de classification.

📖 Read the full source: r/LocalLLaMA

Benchmark Apple Silicon : Performance de Qwen3-VL sur les M3, M4 et M5 Max pour la classification Vision LLM

Configuration des tests et matériel

Modèles testés

Résultats des modèles 8B

Pourquoi le M3 et le M4 ont une vitesse similaire

Résultats des modèles 32B

👀 See Also

Les joueurs de Go se soumettent à l'IA : comment la triche est devenue indétectable

Mise à jour des performances d'inférence MLX : Benchmarks et fonctionnalités d'avril 2026

Pourquoi l'IA reste difficile à déployer pleinement dans les domaines d'entreprise

Application mobile Cursor : Guidez votre agent de codage depuis votre téléphone