Qwen3.5-397B: 20,34 Tok/s auf M5 Max per SSD-Streaming

Hardware- und Modellkonfiguration

Das Experiment wurde auf einem MacBook Pro M5 Max mit 128 GB einheitlichem Speicher und einer 40-Kern-GPU durchgeführt. Das verwendete Modell war Qwen3.5-397B-A17B mit Q3-GGUF-Experten (Unsloth IQ3_XXS/IQ4_XS gemischte Präzision), Q8_0-Einbettung und Q6_K-LM-Kopf. Das Modell belegt 209 GB auf der Festplatte – 4-mal mehr als der verfügbare RAM – was erfordert, dass alles vom SSD gestreamt wird.

Leistungsergebnisse

Die Dekodiergeschwindigkeit erreichte 20,34 Tok/s mit einer Vorausfüllung von 5,52 Tok/s. Dies stellt eine 2-fache Verbesserung gegenüber dem M5 Max-Startpunkt von 10,61 Tok/s und eine 4,67-fache Verbesserung gegenüber Dan Woods' ursprünglicher Basislinie von 4,36 Tok/s auf M3 Max-Hardware dar.

Methodik

Der Forscher verwendete die Autoresearch-Loop-Methodik aus Dan Woods' Flash-Moe-Projekt, führte sie mit Claude Code (Anthropic) aus, um systematisch 36 Experimente durchzuführen und auszuwerten. Jedes Experiment wurde mit Ergebnissen protokolliert, bevor fortgefahren wurde, mit automatischer Qualitätskontrolle über Perplexity-Schwellenwerte, um Rückschritte zu erkennen. Die Mensch-KI-Zusammenarbeit umfasste die Leitung der Forschung und wissenschaftliche Entscheidungen durch den Forscher, während Claude Code unter Anleitung implementierte und benchmarkte.

Technische Grundlage

Die Arbeit baut auf Dan Woods' ursprünglichem Flash-Moe-Paper und Anemlls Fork auf, einer reinen C/Metal-Inferenz-Engine zum Ausführen von Qwen3.5-397B via SSD-Streaming auf Apple Silicon. Der Anemll-Fork fügte Q3-GGUF-Expertenunterstützung hinzu, die für diese Ergebnisse entscheidend war, wobei der Forscher weitere Metal-Level-Optimierungen hinzufügte.

Effektive Optimierungen

16 IO-Threads + cache-io-split=4: Statt jede Expertengewichtungsdatei als einen sequenziellen Block zu lesen, in 4 parallele, seitenausgerichtete Lesevorgänge aufgeteilt, die gleichzeitig verschiedene SSD-Kanäle ansprechen. +1,5 Tok/s
Temporale Expertenvorhersage: Entdeckte 27 % Kreuz-Token-Routing-Korrelation, überlappende SSD-Lesevorgänge mit GPU-Berechnungen. +4,3 Tok/s
Q3-GGUF-Experten (Unsloth IQ3_XXS/IQ4_XS): Kleinere Nutzlast mit Q3 als optimaler Punkt. Bessere Perplexity als 4-Bit (5,58 vs. 5,62) bei 23 % kleinerer Größe. +2,3 Tok/s
CMD2 Vorverschlüsselung: Beseitigt 30 μs pro Schicht Einreichungslücke. +0,44 Tok/s
Verschmolzener Q/K/V-Projektionskern: Liest Eingabevektor einmal statt dreimal (Metal-GPU-Optimierung). +0,76 Tok/s
CMD2 Vorverschlüsselung auf alle Voll-Aufmerksamkeitsschichten erweitert: +0,47 Tok/s

Hinweis: Die Gewinne addieren sich nicht perfekt, da einige Optimierungen miteinander interagieren.

Gescheiterte Ansätze

Die Forschung hatte eine Verwerfungsrate von 78 %. Gescheiterte Ansätze umfassten: 1-Bit-QJL-Quantisierung (Perplexity 5647, katastrophal), ternäre 2-Bit mit 84 % Gewichtssparsity (Modell kollabiert), K=3 Experten-Routing (Qualitätskollaps), Cross-Layer-Vorhersage (0 % Trefferrate), NAX-Offloading (Kachelauffüll-Overhead hob Gewinne auf) und 2-Bit-MLX-Experten (isoliert schneller, aber schlechtere Perplexity und kein Geschwindigkeitsvorteil, sobald temporale Vorhersage auf Q3 angewendet wurde).

Einschränkungen und zukünftige Arbeit

Die Forschung beschränkt sich auf eine einzelne Hardwareplattform, daher sind die Ergebnisse möglicherweise nicht verallgemeinerbar. Q3-Quantisierung in diesem Maßstab verschlechtert sich bei langen Generierungen merklich und erzeugt Artefakte bei längeren Antworten trotz akzeptabler Qualität für kurze Aufgaben. Die Qualität wurde nur über Perplexity bewertet, nicht über standardisierte Benchmarks wie MMLU oder GPQA. Dies ist ein Geschwindigkeitsforschungsprojekt, keine Produktionsqualitätsaussage.

Eine überraschende Erkenntnis: Apples Neural Engine (ANE) war während der Inferenz völlig inaktiv und verbrauchte 0 W, obwohl sie 38 TOPS Rechenleistung bietet. Das Problem ist, dass MoE-Inferenz dynamisch entscheiden muss, welche Experten aktiviert werden sollen, während ANE nur mit statischen, vorab kompilierten Graphen arbeitet. Es könnte eine Möglichkeit für Batch-Vorausfüllung geben.

📖 Read the full source: r/LocalLLaMA