Autoresearch bringt Qwen3.5-397B auf 20,34 Tok/s auf dem M5 Max durch SSD-Streaming.

✍️ OpenClawRadar📅 Veröffentlicht: 30. März 2026🔗 Source
Autoresearch bringt Qwen3.5-397B auf 20,34 Tok/s auf dem M5 Max durch SSD-Streaming.
Ad

Hardware- und Modellkonfiguration

Das Experiment wurde auf einem MacBook Pro M5 Max mit 128 GB einheitlichem Speicher und einer 40-Kern-GPU durchgeführt. Das verwendete Modell war Qwen3.5-397B-A17B mit Q3-GGUF-Experten (Unsloth IQ3_XXS/IQ4_XS gemischte Präzision), Q8_0-Einbettung und Q6_K-LM-Kopf. Das Modell belegt 209 GB auf der Festplatte – 4-mal mehr als der verfügbare RAM – was erfordert, dass alles vom SSD gestreamt wird.

Leistungsergebnisse

Die Dekodiergeschwindigkeit erreichte 20,34 Tok/s mit einer Vorausfüllung von 5,52 Tok/s. Dies stellt eine 2-fache Verbesserung gegenüber dem M5 Max-Startpunkt von 10,61 Tok/s und eine 4,67-fache Verbesserung gegenüber Dan Woods' ursprünglicher Basislinie von 4,36 Tok/s auf M3 Max-Hardware dar.

Methodik

Der Forscher verwendete die Autoresearch-Loop-Methodik aus Dan Woods' Flash-Moe-Projekt, führte sie mit Claude Code (Anthropic) aus, um systematisch 36 Experimente durchzuführen und auszuwerten. Jedes Experiment wurde mit Ergebnissen protokolliert, bevor fortgefahren wurde, mit automatischer Qualitätskontrolle über Perplexity-Schwellenwerte, um Rückschritte zu erkennen. Die Mensch-KI-Zusammenarbeit umfasste die Leitung der Forschung und wissenschaftliche Entscheidungen durch den Forscher, während Claude Code unter Anleitung implementierte und benchmarkte.

Technische Grundlage

Die Arbeit baut auf Dan Woods' ursprünglichem Flash-Moe-Paper und Anemlls Fork auf, einer reinen C/Metal-Inferenz-Engine zum Ausführen von Qwen3.5-397B via SSD-Streaming auf Apple Silicon. Der Anemll-Fork fügte Q3-GGUF-Expertenunterstützung hinzu, die für diese Ergebnisse entscheidend war, wobei der Forscher weitere Metal-Level-Optimierungen hinzufügte.

Ad

Effektive Optimierungen

  • 16 IO-Threads + cache-io-split=4: Statt jede Expertengewichtungsdatei als einen sequenziellen Block zu lesen, in 4 parallele, seitenausgerichtete Lesevorgänge aufgeteilt, die gleichzeitig verschiedene SSD-Kanäle ansprechen. +1,5 Tok/s
  • Temporale Expertenvorhersage: Entdeckte 27 % Kreuz-Token-Routing-Korrelation, überlappende SSD-Lesevorgänge mit GPU-Berechnungen. +4,3 Tok/s
  • Q3-GGUF-Experten (Unsloth IQ3_XXS/IQ4_XS): Kleinere Nutzlast mit Q3 als optimaler Punkt. Bessere Perplexity als 4-Bit (5,58 vs. 5,62) bei 23 % kleinerer Größe. +2,3 Tok/s
  • CMD2 Vorverschlüsselung: Beseitigt 30 μs pro Schicht Einreichungslücke. +0,44 Tok/s
  • Verschmolzener Q/K/V-Projektionskern: Liest Eingabevektor einmal statt dreimal (Metal-GPU-Optimierung). +0,76 Tok/s
  • CMD2 Vorverschlüsselung auf alle Voll-Aufmerksamkeitsschichten erweitert: +0,47 Tok/s

Hinweis: Die Gewinne addieren sich nicht perfekt, da einige Optimierungen miteinander interagieren.

Gescheiterte Ansätze

Die Forschung hatte eine Verwerfungsrate von 78 %. Gescheiterte Ansätze umfassten: 1-Bit-QJL-Quantisierung (Perplexity 5647, katastrophal), ternäre 2-Bit mit 84 % Gewichtssparsity (Modell kollabiert), K=3 Experten-Routing (Qualitätskollaps), Cross-Layer-Vorhersage (0 % Trefferrate), NAX-Offloading (Kachelauffüll-Overhead hob Gewinne auf) und 2-Bit-MLX-Experten (isoliert schneller, aber schlechtere Perplexity und kein Geschwindigkeitsvorteil, sobald temporale Vorhersage auf Q3 angewendet wurde).

Einschränkungen und zukünftige Arbeit

Die Forschung beschränkt sich auf eine einzelne Hardwareplattform, daher sind die Ergebnisse möglicherweise nicht verallgemeinerbar. Q3-Quantisierung in diesem Maßstab verschlechtert sich bei langen Generierungen merklich und erzeugt Artefakte bei längeren Antworten trotz akzeptabler Qualität für kurze Aufgaben. Die Qualität wurde nur über Perplexity bewertet, nicht über standardisierte Benchmarks wie MMLU oder GPQA. Dies ist ein Geschwindigkeitsforschungsprojekt, keine Produktionsqualitätsaussage.

Eine überraschende Erkenntnis: Apples Neural Engine (ANE) war während der Inferenz völlig inaktiv und verbrauchte 0 W, obwohl sie 38 TOPS Rechenleistung bietet. Das Problem ist, dass MoE-Inferenz dynamisch entscheiden muss, welche Experten aktiviert werden sollen, während ANE nur mit statischen, vorab kompilierten Graphen arbeitet. Es könnte eine Möglichkeit für Batch-Vorausfüllung geben.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Chromes Gemini Nano KI-Modell belegt 4 GB Festplattenspeicher
Nachrichten

Chromes Gemini Nano KI-Modell belegt 4 GB Festplattenspeicher

Google Chrome lädt automatisch eine 4GB große weights.bin-Datei für das On-Device-KI-Modell Gemini Nano herunter, die ohne klare Benutzerhinweise den Speicher aufblähen kann. Das Deaktivieren des On-Device-KI-Schalters in den Einstellungen entfernt die Datei und verhindert erneutes Herunterladen.

OpenClawRadar
Claude-Code v2.1.105 Veröffentlichung: Verbesserungen an Worktrees, Plugin-Monitore und UI-Korrekturen
Nachrichten

Claude-Code v2.1.105 Veröffentlichung: Verbesserungen an Worktrees, Plugin-Monitore und UI-Korrekturen

Claude-Code v2.1.105 fügt dem EnterWorktree-Tool einen Pfadparameter hinzu, um zu bestehenden Worktrees zu wechseln, führt Hintergrundmonitor-Unterstützung für Plugins über einen Monitors-Manifest-Schlüssel ein und behebt über 30 Probleme, darunter UI-Anzeigeprobleme, MCP-Server-Behandlung und Terminalkompatibilität.

OpenClawRadar
Claude Code fügt Spracheingabe mit Push-to-Talk-Funktion hinzu
Nachrichten

Claude Code fügt Spracheingabe mit Push-to-Talk-Funktion hinzu

Claude Code führt den Sprachmodus zunächst für etwa 5 % der Nutzer ein, mit einer Push-to-Talk-Aktivierung durch Halten der Leertaste. Tokens für Spracherkennung zählen nicht gegen die Ratenlimits und das Feature ist ohne zusätzliche Kosten enthalten.

OpenClawRadar
Google, Microsoft und xAI einigen sich, frühe KI-Modelle mit der US-Regierung zu teilen
Nachrichten

Google, Microsoft und xAI einigen sich, frühe KI-Modelle mit der US-Regierung zu teilen

Google, Microsoft und xAI (Elon Musks KI-Firma) haben sich freiwillig verpflichtet, der US-Regierung frühen Zugang zu ihren KI-Modellen für Sicherheitstests zu gewähren, im Rahmen einer Initiative, über die das Wall Street Journal berichtet.

OpenClawRadar