Apple Silicon Benchmark: Leistung von Qwen3-VL auf M3, M4 und M5 Max für Vision-LLM-Klassifizierung

✍️ OpenClawRadar📅 Veröffentlicht: 6. April 2026🔗 Source
Apple Silicon Benchmark: Leistung von Qwen3-VL auf M3, M4 und M5 Max für Vision-LLM-Klassifizierung
Ad

Benchmark-Aufbau und Hardware

Eine Vision-LLM-Klassifizierungspipeline wurde auf technischen Zeichnungen (PDFs mit verschiedenen Megapixel-Auflösungen) getestet, wobei LM Studio mit MLX-Backend, aktiviertem Streaming, demselben 53-Dateien-Testdatensatz und demselben Prompt verwendet wurde. Die Aufgabe umfasst Klassifizierung, bei der das Modell ein Bild analysiert und eine kurze strukturierte JSON-Antwort (~300-400 Tokens) zurückgibt, wodurch die Inferenz stark prefill-dominiert ist mit minimaler Token-Generierung.

Getestete Hardware:

  • M3 Max: 40 GPU-Kerne, 48 GB RAM, 400 GB/s Speicherbandbreite
  • M4 Max Studio: 40 GPU-Kerne, 64 GB RAM, 546 GB/s Speicherbandbreite
  • M5 Max: 40 GPU-Kerne, 64 GB RAM, 614 GB/s Speicherbandbreite

Getestete Modelle

  • Qwen3-VL 8B: 8B Parameter, 4-Bit-MLX-Quantisierung, ~5,8 GB auf der Festplatte
  • Qwen3.5 9B: 9B Parameter (dicht, hybride Aufmerksamkeit), 4-Bit-MLX-Quantisierung, ~6,2 GB auf der Festplatte
  • Qwen3-VL 32B: 32B Parameter, 4-Bit-MLX-Quantisierung, ~18 GB auf der Festplatte

Ergebnisse für 8B-Modelle

Gesamtzeit pro Bild für Qwen3-VL 8B (4-Bit):

  • 4 MP: M3 Max 48GB: 16,5s, M4 Studio 64GB: 15,8s, M5 Max 64GB: 9,0s (M5 ist 83 % schneller als M3)
  • 5 MP: M3 Max: 20,3s, M4 Studio: 19,8s, M5 Max: 11,5s (77 % schneller)
  • 6 MP: M3 Max: 24,1s, M4 Studio: 24,4s, M5 Max: 14,0s (72 % schneller)
  • 7,5 MP: M4 Studio: 32,7s, M5 Max: 20,3s

Der M3 Max und der M4 Studio sind beim 8B-Modell im Wesentlichen identisch, mit einer Gesamtinferenzzeit innerhalb von 3-5 %, obwohl der M4 eine 37 % höhere Speicherbandbreite hat. Der M5 Max ist etwa 75-83 % schneller als beide.

Ad

Warum M3 und M4 ähnliche Geschwindigkeit haben

Prefill (Prompt-Verarbeitung) skaliert mit GPU-Compute-Kernen, nicht mit Speicherbandbreite. Beide Chips haben 40 GPU-Kerne, daher ist die Prefill-Geschwindigkeit identisch. Bei Vision-Modellen dominiert Prefill: TTFT (Time to First Token) macht 70-85 % der Gesamtinferenzzeit aus, weil der Vision-Encoder schwere Rechenarbeit pro Bild leistet.

Der M4 zeigt seinen Bandbreitenvorteil bei der Token-Generierung: 76-80 T/s gegenüber 60-64 T/s beim M3 (25 % schneller), was der 37 % Bandbreitenlücke (546 vs. 400 GB/s) entspricht. Bei Klassifizierungsaufgaben mit kurzen Ausgaben (~300-400 Tokens) macht die Generierung jedoch nur ~15 % der Gesamtzeit aus, sodass der 25 %ige Geschwindigkeitsvorteil bei der Generierung nur zu einer 3-5 %igen End-to-End-Verbesserung führt.

Ergebnisse für 32B-Modelle

Gesamtzeit pro Bild für Qwen3-VL 32B (4-Bit):

  • 2 MP: M3 Max 48GB: 47,6s, M4 Studio 64GB: 35,3s, M5 Max 64GB: 21,2s
  • 4 MP: M3 Max: 63,2s, M4 Studio: 50,0s, M5 Max: 27,4s
  • 5 MP: M3 Max: 72,9s, M4 Studio: 59,2s, M5 Max: 30,7s
  • 6 MP: M3 Max: 85,3s, M4 Studio: 78,0s, M5 Max: 35,6s

Für längere Generierungsaufgaben wie Zusammenfassung, Beschreibung oder Code-Generierung wäre der Bandbreitenvorteil des M4 wichtiger als in dieser Klassifizierungsarbeit.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Non-Profit-Organisationen erhalten Zugang zu Claude Opus 4.6 in Team- und Unternehmensplänen.
Nachrichten

Non-Profit-Organisationen erhalten Zugang zu Claude Opus 4.6 in Team- und Unternehmensplänen.

Gemeinnützige Organisationen, die die Team- und Enterprise-Pläne nutzen, können jetzt ohne zusätzliche Kosten auf Claude Opus 4.6, das neueste KI-Modell von Anthropic, zugreifen.

OpenClawRadar
Die dynamische Welt der beweglichen Maschinen erkunden
Nachrichten

Die dynamische Welt der beweglichen Maschinen erkunden

Erfahren Sie, wie KI-gesteuerte Codierungsagenten die Branche transformieren, in der neuesten Diskussion aus der Tech-Community. Lassen Sie sich von den Erkenntnissen von OpenClawRadar inspirieren, während wir wichtige Aspekte dieser sich entwickelnden Technologie hervorheben.

OpenClawRadar
Claude Sonett 4.6 Enthüllt: Verbesserte Codierungs- und Computerverwendbarkeit
Nachrichten

Claude Sonett 4.6 Enthüllt: Verbesserte Codierungs- und Computerverwendbarkeit

Claude Sonnet 4.6 führt ein Kontextfenster von 1 Million Token ein und verbessert die Fähigkeiten im Programmieren und der Computerbenutzung, was es zu einer starken Alternative zu Opus-Klasse-Modellen für ein breites Aufgabenspektrum macht.

OpenClawRadar
Google spendet Agentenzahlungsprotokoll (AP2) an FIDO Alliance, veröffentlicht Version 0.2 mit „Human Not Present"-Zahlungen
Nachrichten

Google spendet Agentenzahlungsprotokoll (AP2) an FIDO Alliance, veröffentlicht Version 0.2 mit „Human Not Present"-Zahlungen

Google spendet das Agent Payments Protocol (AP2) an die FIDO Alliance und veröffentlicht Version 0.2 mit Unterstützung für autonome ‚Human Not Present‘-Zahlungen und einen neuen Standard für verifizierte Absichten, der gemeinsam mit Mastercard entwickelt wurde.

OpenClawRadar