Flash-MOE-Benchmark auf dem M5 Max: 12.99 Tok/s mit Qwen3.5-397B

✍️ OpenClawRadar📅 Veröffentlicht: 31. März 2026🔗 Source
Flash-MOE-Benchmark auf dem M5 Max: 12.99 Tok/s mit Qwen3.5-397B
Ad

Leistungsergebnisse

Ein Nutzer hat die Flash-MOE-Implementierung auf einem M5 Max MacBook Pro mit 128 GB einheitlichem Speicher getestet und dabei das Modell mlx-community/Qwen3.5-397B-A17B-4bit ausgeführt. Der ursprüngliche Benchmark von Dan Woods auf einem M3 Max mit 48 GB RAM erreichte 4,36 Token pro Sekunde. Auf dem M5 Max erreichte die Basiskonfiguration mit 4-Bit-Quantisierung und ohne Cache-IO-Split 12,48 Tok/s. Mit der optimalen Einstellung --cache-io-split 4 stieg die Leistung auf 12,99 Tok/s, was dreimal schneller ist als der ursprüngliche Benchmark.

Cache-IO-Split-Analyse

Der Nutzer führte eine vollständige Überprüfung der Cache-IO-Split-Werte mit dem Anemll-Fork von Flash-MOE durch, der Metal 4 NAX-Unterstützung für M5+-Chips hinzufügt. Die Ergebnisse zeigen, dass die Splits 2 und 3 die Leistung verschlechtern, während Split 4 die beste Optimierung bietet:

  • Cache-IO-Split 1 (keiner): 12,48 Tok/s, 28,4 ms Experten-I/O pro Token
  • Cache-IO-Split 2: 9,94 Tok/s, 28,2 ms Experten-I/O pro Token
  • Cache-IO-Split 3: 9,99 Tok/s, 36,1 ms Experten-I/O pro Token
  • Cache-IO-Split 4: 12,99 Tok/s, 25,9 ms Experten-I/O pro Token
  • Cache-IO-Split 5: 12,64 Tok/s, 27,5 ms Experten-I/O pro Token
  • Cache-IO-Split 8: 12,90 Tok/s, 26,4 ms Experten-I/O pro Token

Die Analyse legt nahe, dass Split 4 mit der internen Parallelität des M5 Max SSD-Controllers übereinstimmt, während höhere Werte Planungsaufwand hinzufügen. Die Empfehlung lautet, --cache-io-split 4 oder gar keinen Split zu verwenden und die Splits 2 und 3 zu vermeiden.

Ad

Quantisierungsvergleich

Tests mit 2-Bit- gegenüber 4-Bit-Quantisierung zeigten, dass 2-Bit auf dem M5 Max keinen Geschwindigkeitsvorteil bietet, da die SSD-Geschwindigkeit kleinere Dateien unnötig macht und der Dequantisierungsaufwand alle Gewinne aufhebt. Die Qualität leidet bei 2-Bit erheblich:

  • 4-Bit: 12,99 Tok/s, 3,64 Perplexität auf WikiText-2
  • 2-Bit: ~12,65 Tok/s, 5,71 Perplexität auf WikiText-2 (57 % schlechter)

Die Schlussfolgerung lautet, 4-Bit-Quantisierung für bessere Qualität ohne Geschwindigkeitseinbußen zu verwenden.

Technische Details

Der Benchmark verwendete den Anemll-Fork, verfügbar unter https://github.com/Anemll/flash-moe. Die anhaltende Leistung blieb stabil bei 11,23 Tok/s über 1000 Token ohne Verschlechterung. Der Nutzer merkte an, dass Hintergrundprozesse, die Metal/GPU verwenden, wie LM Studio, die Leistung erheblich beeinträchtigen können und während des Benchmarks geschlossen werden sollten.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

ClawDeckX: Open-Source Web-Plattform im macOS-Stil zur Verwaltung von OpenClaw-Agenten
Werkzeuge

ClawDeckX: Open-Source Web-Plattform im macOS-Stil zur Verwaltung von OpenClaw-Agenten

ClawDeckX ist eine Open-Source-Webplattform zum Installieren, Konfigurieren und Überwachen von OpenClaw-Agenten. Sie bietet visuelle Verwaltungswerkzeuge, Echtzeitüberwachung und unterstützt 13 Sprachen.

OpenClawRadar
Crow: Open-Source-MCP-Plattform fügt LLM-Frontends persistenten Speicher und P2P-Sharing hinzu
Werkzeuge

Crow: Open-Source-MCP-Plattform fügt LLM-Frontends persistenten Speicher und P2P-Sharing hinzu

Crow ist eine Open-Source, selbst gehostete MCP-Server-Plattform, die LLM-Frontends SQLite-gestützten persistenten Speicher, strukturierte Forschungstools und verschlüsseltes Peer-to-Peer-Sharing bietet. Sie funktioniert mit jedem MCP-kompatiblen Client wie Claude Desktop, Cursor oder Windsurf und benötigt standardmäßig keine Cloud-Abhängigkeit.

OpenClawRadar
Sonarly: KI-gesteuerte Produktionswarnungs-Triage und -Lösung
Werkzeuge

Sonarly: KI-gesteuerte Produktionswarnungs-Triage und -Lösung

Sonarly verbindet sich mit Observability-Tools, um Produktionswarnungen zu priorisieren und zu beheben, Geräusche zu reduzieren und sich auf kritische Probleme zu konzentrieren.

OpenClawRadar
MCP Memory Gateway: Ein MCP-Server für persistenten Speicher in Claude Code
Werkzeuge

MCP Memory Gateway: Ein MCP-Server für persistenten Speicher in Claude Code

Ein Entwickler hat einen MCP-Server namens MCP Memory Gateway erstellt, wobei Claude Code als primäres Entwicklungswerkzeug diente. Er bietet Claude Code persistenten Speicher über Sitzungen hinweg durch Feedback-Erfassung, Präventionsregeln und Kontextinjektion.

OpenClawRadar