Flash-MOE-Benchmark: Qwen3.5-397B auf M5 Max

Leistungsergebnisse

Ein Nutzer hat die Flash-MOE-Implementierung auf einem M5 Max MacBook Pro mit 128 GB einheitlichem Speicher getestet und dabei das Modell mlx-community/Qwen3.5-397B-A17B-4bit ausgeführt. Der ursprüngliche Benchmark von Dan Woods auf einem M3 Max mit 48 GB RAM erreichte 4,36 Token pro Sekunde. Auf dem M5 Max erreichte die Basiskonfiguration mit 4-Bit-Quantisierung und ohne Cache-IO-Split 12,48 Tok/s. Mit der optimalen Einstellung --cache-io-split 4 stieg die Leistung auf 12,99 Tok/s, was dreimal schneller ist als der ursprüngliche Benchmark.

Cache-IO-Split-Analyse

Der Nutzer führte eine vollständige Überprüfung der Cache-IO-Split-Werte mit dem Anemll-Fork von Flash-MOE durch, der Metal 4 NAX-Unterstützung für M5+-Chips hinzufügt. Die Ergebnisse zeigen, dass die Splits 2 und 3 die Leistung verschlechtern, während Split 4 die beste Optimierung bietet:

Cache-IO-Split 1 (keiner): 12,48 Tok/s, 28,4 ms Experten-I/O pro Token
Cache-IO-Split 2: 9,94 Tok/s, 28,2 ms Experten-I/O pro Token
Cache-IO-Split 3: 9,99 Tok/s, 36,1 ms Experten-I/O pro Token
Cache-IO-Split 4: 12,99 Tok/s, 25,9 ms Experten-I/O pro Token
Cache-IO-Split 5: 12,64 Tok/s, 27,5 ms Experten-I/O pro Token
Cache-IO-Split 8: 12,90 Tok/s, 26,4 ms Experten-I/O pro Token

Die Analyse legt nahe, dass Split 4 mit der internen Parallelität des M5 Max SSD-Controllers übereinstimmt, während höhere Werte Planungsaufwand hinzufügen. Die Empfehlung lautet, --cache-io-split 4 oder gar keinen Split zu verwenden und die Splits 2 und 3 zu vermeiden.

Quantisierungsvergleich

Tests mit 2-Bit- gegenüber 4-Bit-Quantisierung zeigten, dass 2-Bit auf dem M5 Max keinen Geschwindigkeitsvorteil bietet, da die SSD-Geschwindigkeit kleinere Dateien unnötig macht und der Dequantisierungsaufwand alle Gewinne aufhebt. Die Qualität leidet bei 2-Bit erheblich:

4-Bit: 12,99 Tok/s, 3,64 Perplexität auf WikiText-2
2-Bit: ~12,65 Tok/s, 5,71 Perplexität auf WikiText-2 (57 % schlechter)

Die Schlussfolgerung lautet, 4-Bit-Quantisierung für bessere Qualität ohne Geschwindigkeitseinbußen zu verwenden.

Technische Details

Der Benchmark verwendete den Anemll-Fork, verfügbar unter https://github.com/Anemll/flash-moe. Die anhaltende Leistung blieb stabil bei 11,23 Tok/s über 1000 Token ohne Verschlechterung. Der Nutzer merkte an, dass Hintergrundprozesse, die Metal/GPU verwenden, wie LM Studio, die Leistung erheblich beeinträchtigen können und während des Benchmarks geschlossen werden sollten.

📖 Read the full source: r/LocalLLaMA

Flash-MOE-Benchmark auf dem M5 Max: 12.99 Tok/s mit Qwen3.5-397B

Leistungsergebnisse

Cache-IO-Split-Analyse

Quantisierungsvergleich

Technische Details

👀 Siehe auch

LM Studio-Parser-Fehler beeinträchtigen Qwen3.5-Toolaufrufe und logisches Denken

Nexus Desktop-App automatisiert MCP-Setup für TTRPG-Kampagnenverwaltung

Logira: Echtzeitüberwachung von eBPF für KI-Agenten-Ausführungen

SourceBridge: Open-Source-Tool zur Codebasis-Analyse mit lokalen LLMs