M5 Max vs. M3 Max Inferenz-Benchmarks für Qwen-Modelle auf oMLX

✍️ OpenClawRadar📅 Veröffentlicht: 28. März 2026🔗 Source
M5 Max vs. M3 Max Inferenz-Benchmarks für Qwen-Modelle auf oMLX
Ad

Der Reddit-Nutzer /u/onil_gova führte Inferenz-Benchmarks durch, die 16-Zoll MacBook Pros mit M5 Max- und M3 Max-Prozessoren verglichen, beide mit 40 GPU-Kernen und 128 GB Unified Memory ausgestattet. Die Tests verwendeten oMLX v0.2.23 und drei Qwen 3.5-Modelle: das 122B-A10B MoE, 35B-A3B MoE und 27B dense.

Benchmark-Ergebnisse

Bei pp1024/tg128 (Prompt-Verarbeitungslänge 1024, Token-Generierungslänge 128) zeigte der M5 Max signifikante Geschwindigkeitsverbesserungen:

  • 35B-A3B MoE: 134,5 vs. 80,3 tg tok/s (1,7-mal schneller)
  • 122B-A10B MoE: 65,3 vs. 46,1 tg tok/s (1,4-mal schneller)
  • 27B dense: 32,8 vs. 23,0 tg tok/s (1,4-mal schneller)

Die Leistungslücke vergrößert sich mit längeren Kontexten. Bei einer Kontextlänge von 65K sank das 27B dense-Modell auf 6,8 tg tok/s beim M3 Max gegenüber 19,6 tg tok/s beim M5 Max (2,9-facher Unterschied).

Ad

Prefill- und Batching-Leistung

Die Prefill-Vorteile waren noch größer und erreichten beim M5 Max bei langen Kontextlängen bis zu 4-mal schnellere Werte, was auf die GPU Neural Accelerators des M5 Max zurückgeführt wird.

Die Batching-Leistung zeigte wichtige Unterschiede für agentische Workloads:

  • M5 Max skalierte auf den 2,54-fachen Durchsatz bei 4-facher Batch-Größe beim 35B-A3B-Modell
  • M3 Max Batching bei dense-Modellen verschlechterte die Leistung (0,80-fach bei 2-facher Batch-Größe beim 122B-Modell)

Der Bandbreitenunterschied (614 GB/s beim M5 Max vs. 400 GB/s beim M3 Max) ist signifikant für mehrstufige Agenten-Schleifen oder parallele Tool-Aufrufe.

MoE-Effizienz-Erkenntnisse

Die Benchmarks zeigten, dass das 122B-Modell (mit 10B aktiven Parametern) auf beiden Maschinen schneller generiert als das 27B dense-Modell. Dies zeigt, dass die Anzahl der aktiven Parameter die Inferenzgeschwindigkeit bestimmt, nicht die Gesamtmodellgröße.

Die vollständige interaktive Aufschlüsselung mit allen Diagrammen und Daten ist verfügbar unter: https://claude.ai/public/artifacts/c9fba245-e734-4b3b-be44-a6cabdec6f8f

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

OpenClaw 2026.3.11 Release fügt lokale Ollama-Einrichtung, multimodalen Speicher und Discord-Thread-Steuerung hinzu
Nachrichten

OpenClaw 2026.3.11 Release fügt lokale Ollama-Einrichtung, multimodalen Speicher und Discord-Thread-Steuerung hinzu

OpenClaw 2026.3.11 führt eine erstklassige Ollama-Einrichtung mit rein lokalen oder hybriden Modi ein, fügt multimodale Bild- und Audio-Indizierung zur Speichersuche mit Gemini-Embeddings hinzu und bietet konfigurierbare Discord-Thread-Archivierungszeiten.

OpenClawRadar
Hivemoot-Kolonie: Ein Open-Source-Experiment für KI-Agenten auf GitHub
Nachrichten

Hivemoot-Kolonie: Ein Open-Source-Experiment für KI-Agenten auf GitHub

Hivemoot Colony ist ein Open-Source-Projekt, bei dem KI-Agenten kollaborative Entscheidungen in einem GitHub-Repository treffen. Die Agenten eröffnen nicht nur Pull-Requests (PRs), sondern gestalten auch autonom die Richtung des Projekts.

OpenClawRadar
Ubers KI-Entwicklung steht trotz 3,4 Mrd. Dollar Investitionen vor Budgetbeschränkungen
Nachrichten

Ubers KI-Entwicklung steht trotz 3,4 Mrd. Dollar Investitionen vor Budgetbeschränkungen

Ubers KI-Initiativen stoßen laut ihrem CTO auf Budgetbeschränkungen, obwohl das Unternehmen 3,4 Milliarden Dollar für diese Bemühungen bereitgestellt hat. Der Artikel erörtert die Herausforderungen bei der Skalierung der KI-Entwicklung innerhalb finanzieller Grenzen.

OpenClawRadar
Anthropic beschränkt Claude-Abonnements über Drittanbieter-Schnittstellen wie OpenClaw.
Nachrichten

Anthropic beschränkt Claude-Abonnements über Drittanbieter-Schnittstellen wie OpenClaw.

Anthropic beendet ab dem 4. April die Claude-Abonnementabdeckung für Drittanbieter-Tools wie OpenClaw. Nutzer müssen dann eine nutzungsabhängige Zusatznutzung aktivieren, die separat abgerechnet wird. Ein einmaliger Guthaben in Höhe des monatlichen Abonnementpreises ist bis zum 17. April verfügbar.

OpenClawRadar