Qwen3-VL Benchmark: M5 Max 83% schneller als M3 Max

Benchmark-Aufbau und Hardware

Eine Vision-LLM-Klassifizierungspipeline wurde auf technischen Zeichnungen (PDFs mit verschiedenen Megapixel-Auflösungen) getestet, wobei LM Studio mit MLX-Backend, aktiviertem Streaming, demselben 53-Dateien-Testdatensatz und demselben Prompt verwendet wurde. Die Aufgabe umfasst Klassifizierung, bei der das Modell ein Bild analysiert und eine kurze strukturierte JSON-Antwort (~300-400 Tokens) zurückgibt, wodurch die Inferenz stark prefill-dominiert ist mit minimaler Token-Generierung.

Getestete Hardware:

M3 Max: 40 GPU-Kerne, 48 GB RAM, 400 GB/s Speicherbandbreite
M4 Max Studio: 40 GPU-Kerne, 64 GB RAM, 546 GB/s Speicherbandbreite
M5 Max: 40 GPU-Kerne, 64 GB RAM, 614 GB/s Speicherbandbreite

Getestete Modelle

Qwen3-VL 8B: 8B Parameter, 4-Bit-MLX-Quantisierung, ~5,8 GB auf der Festplatte
Qwen3.5 9B: 9B Parameter (dicht, hybride Aufmerksamkeit), 4-Bit-MLX-Quantisierung, ~6,2 GB auf der Festplatte
Qwen3-VL 32B: 32B Parameter, 4-Bit-MLX-Quantisierung, ~18 GB auf der Festplatte

Ergebnisse für 8B-Modelle

Gesamtzeit pro Bild für Qwen3-VL 8B (4-Bit):

4 MP: M3 Max 48GB: 16,5s, M4 Studio 64GB: 15,8s, M5 Max 64GB: 9,0s (M5 ist 83 % schneller als M3)
5 MP: M3 Max: 20,3s, M4 Studio: 19,8s, M5 Max: 11,5s (77 % schneller)
6 MP: M3 Max: 24,1s, M4 Studio: 24,4s, M5 Max: 14,0s (72 % schneller)
7,5 MP: M4 Studio: 32,7s, M5 Max: 20,3s

Der M3 Max und der M4 Studio sind beim 8B-Modell im Wesentlichen identisch, mit einer Gesamtinferenzzeit innerhalb von 3-5 %, obwohl der M4 eine 37 % höhere Speicherbandbreite hat. Der M5 Max ist etwa 75-83 % schneller als beide.

Warum M3 und M4 ähnliche Geschwindigkeit haben

Prefill (Prompt-Verarbeitung) skaliert mit GPU-Compute-Kernen, nicht mit Speicherbandbreite. Beide Chips haben 40 GPU-Kerne, daher ist die Prefill-Geschwindigkeit identisch. Bei Vision-Modellen dominiert Prefill: TTFT (Time to First Token) macht 70-85 % der Gesamtinferenzzeit aus, weil der Vision-Encoder schwere Rechenarbeit pro Bild leistet.

Der M4 zeigt seinen Bandbreitenvorteil bei der Token-Generierung: 76-80 T/s gegenüber 60-64 T/s beim M3 (25 % schneller), was der 37 % Bandbreitenlücke (546 vs. 400 GB/s) entspricht. Bei Klassifizierungsaufgaben mit kurzen Ausgaben (~300-400 Tokens) macht die Generierung jedoch nur ~15 % der Gesamtzeit aus, sodass der 25 %ige Geschwindigkeitsvorteil bei der Generierung nur zu einer 3-5 %igen End-to-End-Verbesserung führt.

Ergebnisse für 32B-Modelle

Gesamtzeit pro Bild für Qwen3-VL 32B (4-Bit):

2 MP: M3 Max 48GB: 47,6s, M4 Studio 64GB: 35,3s, M5 Max 64GB: 21,2s
4 MP: M3 Max: 63,2s, M4 Studio: 50,0s, M5 Max: 27,4s
5 MP: M3 Max: 72,9s, M4 Studio: 59,2s, M5 Max: 30,7s
6 MP: M3 Max: 85,3s, M4 Studio: 78,0s, M5 Max: 35,6s

Für längere Generierungsaufgaben wie Zusammenfassung, Beschreibung oder Code-Generierung wäre der Bandbreitenvorteil des M4 wichtiger als in dieser Klassifizierungsarbeit.

📖 Read the full source: r/LocalLLaMA