Flash-MOE-Benchmark auf dem M5 Max: 12.99 Tok/s mit Qwen3.5-397B

✍️ OpenClawRadar📅 Veröffentlicht: 31. März 2026🔗 Source
Flash-MOE-Benchmark auf dem M5 Max: 12.99 Tok/s mit Qwen3.5-397B
Ad

Leistungsergebnisse

Ein Nutzer hat die Flash-MOE-Implementierung auf einem M5 Max MacBook Pro mit 128 GB einheitlichem Speicher getestet und dabei das Modell mlx-community/Qwen3.5-397B-A17B-4bit ausgeführt. Der ursprüngliche Benchmark von Dan Woods auf einem M3 Max mit 48 GB RAM erreichte 4,36 Token pro Sekunde. Auf dem M5 Max erreichte die Basiskonfiguration mit 4-Bit-Quantisierung und ohne Cache-IO-Split 12,48 Tok/s. Mit der optimalen Einstellung --cache-io-split 4 stieg die Leistung auf 12,99 Tok/s, was dreimal schneller ist als der ursprüngliche Benchmark.

Cache-IO-Split-Analyse

Der Nutzer führte eine vollständige Überprüfung der Cache-IO-Split-Werte mit dem Anemll-Fork von Flash-MOE durch, der Metal 4 NAX-Unterstützung für M5+-Chips hinzufügt. Die Ergebnisse zeigen, dass die Splits 2 und 3 die Leistung verschlechtern, während Split 4 die beste Optimierung bietet:

  • Cache-IO-Split 1 (keiner): 12,48 Tok/s, 28,4 ms Experten-I/O pro Token
  • Cache-IO-Split 2: 9,94 Tok/s, 28,2 ms Experten-I/O pro Token
  • Cache-IO-Split 3: 9,99 Tok/s, 36,1 ms Experten-I/O pro Token
  • Cache-IO-Split 4: 12,99 Tok/s, 25,9 ms Experten-I/O pro Token
  • Cache-IO-Split 5: 12,64 Tok/s, 27,5 ms Experten-I/O pro Token
  • Cache-IO-Split 8: 12,90 Tok/s, 26,4 ms Experten-I/O pro Token

Die Analyse legt nahe, dass Split 4 mit der internen Parallelität des M5 Max SSD-Controllers übereinstimmt, während höhere Werte Planungsaufwand hinzufügen. Die Empfehlung lautet, --cache-io-split 4 oder gar keinen Split zu verwenden und die Splits 2 und 3 zu vermeiden.

Ad

Quantisierungsvergleich

Tests mit 2-Bit- gegenüber 4-Bit-Quantisierung zeigten, dass 2-Bit auf dem M5 Max keinen Geschwindigkeitsvorteil bietet, da die SSD-Geschwindigkeit kleinere Dateien unnötig macht und der Dequantisierungsaufwand alle Gewinne aufhebt. Die Qualität leidet bei 2-Bit erheblich:

  • 4-Bit: 12,99 Tok/s, 3,64 Perplexität auf WikiText-2
  • 2-Bit: ~12,65 Tok/s, 5,71 Perplexität auf WikiText-2 (57 % schlechter)

Die Schlussfolgerung lautet, 4-Bit-Quantisierung für bessere Qualität ohne Geschwindigkeitseinbußen zu verwenden.

Technische Details

Der Benchmark verwendete den Anemll-Fork, verfügbar unter https://github.com/Anemll/flash-moe. Die anhaltende Leistung blieb stabil bei 11,23 Tok/s über 1000 Token ohne Verschlechterung. Der Nutzer merkte an, dass Hintergrundprozesse, die Metal/GPU verwenden, wie LM Studio, die Leistung erheblich beeinträchtigen können und während des Benchmarks geschlossen werden sollten.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Kostenloses Pharmakovigilanz-Signalerkennungstool, erstellt mit Claude Code
Werkzeuge

Kostenloses Pharmakovigilanz-Signalerkennungstool, erstellt mit Claude Code

Ein Entwickler hat mit Claude Code eine kostenlose Plattform für Pharmakovigilanz erstellt, die 2,9 Millionen FDA-Berichte über unerwünschte Ereignisse analysiert und statistische Signalerfassung durchführt, für die kommerzielle Plattformen 50.000 bis 500.000 US-Dollar pro Jahr verlangen. Das Tool wird kostenlos auf HuggingFace gehostet.

OpenClawRadar
Anchormd: Ein Werkzeug zur Verwaltung von Kontext über Claude AI-Sitzungen hinweg
Werkzeuge

Anchormd: Ein Werkzeug zur Verwaltung von Kontext über Claude AI-Sitzungen hinweg

Anchormd ist ein Open-Source-Tool, das den Kontextverlust in Claude-AI-Sitzungen behebt, indem es kuratierte Markdown-Pläne in einen durchsuchbaren Wissensgraphen indexiert. Es ermöglicht Agenten, Projektübersichten zu Sitzungsbeginn zu laden und bei Bedarf nach spezifischen Details zu suchen.

OpenClawRadar
Pilot Shell: Eine strukturierte Workflow-Schicht für Claude Code
Werkzeuge

Pilot Shell: Eine strukturierte Workflow-Schicht für Claude Code

Pilot Shell fügt spezifikationsgesteuerte TDD-Workflows, Qualitäts-Hooks, Context Engineering und Token-Optimierung auf Basis von Claude Code hinzu – ohne die Komplexität von Multi-Agenten-Frameworks.

OpenClawRadar
Patina: Eine Claude-Code-Fähigkeit, die KI-Schreibmuster erkennt und umschreibt
Werkzeuge

Patina: Eine Claude-Code-Fähigkeit, die KI-Schreibmuster erkennt und umschreibt

Ein Entwickler hat eine Claude Code-Fähigkeit namens Patina erstellt, die 112 Muster identifiziert, die KI-generierten Text in vier Sprachen offensichtlich machen, und dann markierte Abschnitte umschreibt. Das Tool umfasst Modi für reine Erkennung, Bewertung und iteratives Umschreiben.

OpenClawRadar