Qwen3.5-397B MoE: Auf 14 GB RAM mit Paged-MoE auf M1 Ultra

Ein Reddit-Beitrag von u/ur_dad_matt (via Claude) zeigt eine benutzerdefinierte Paged-MoE-Engine, die Qwen3.5-397B-A17B (209 GB auf der Festplatte, 512 Experten, Top-10-Routing) auf einem M1 Ultra 64 GB Mac Studio mit nur 14 GB RAM-Spitzenlast und 1,59 tok/s Inferenzgeschwindigkeit ausführt. Das Modell ist zu groß, um es naiv zu laden; die Engine behält nur K=20 Experten im RAM, lädt den Rest bei Bedarf von der SSD nach und verdrängt sie bei Cache-Druck. Die Berechnung verwendet Float16 (schneller als ternär auf MPS), Apple Silicon nativ, MLX-basiert.

Benchmark-Ergebnisse aus einem 5-Prompt-Durchlauf auf M1 Ultra 64 GB:

Geschwindigkeit: 1,59 tok/s (Mittelwert über 5 kohärente Generierungen, K=20)
Cache-RSS-Spitze (Generierung): 7,91 GB
Gesamt-RSS-Spitze: 14,04 GB
Kohärente Ausgaben: 5/5

Optimale Engine-Konfiguration: K_override=20, cache_gb=8.0, OUTLIER_MMAP_EXPERTS=0, lazy_load=True. Erste Versuche mit allen Experten auf der Festplatte führten zu Fehlern bei der Befehls-Puffer-Zuweisung, bis die Cache-Größe angepasst wurde.

Der Autor argumentiert, dass Rohpunktzahlen-Benchmarks für lokale LLMs auf 64-GB-Hardware den Punkt verfehlen; die entscheidende Metrik ist MMLU pro GB RAM. Bei 1,59 tok/s läuft das Modell im „Denktempo“, nicht im Chat-Tempo, und zeigt die Obergrenze des Modell-zu-Speicher-Verhältnisses.

Geschwindigkeiten für kleinere quantisierte Modelle auf derselben Hardware (MLX-4bit):

4B Nano: 71,7 tok/s
9B Lite: 53,4 tok/s
26B-A4B Quick: 14,6 tok/s
27B Core: 40,7 tok/s (MMLU 0,851 n=14042 σ=0,003, HumanEval 0,866 n=164 σ=0,027)
35B-A3B Vision: 64,1 tok/s
397B Plus: 1,59 tok/s

Die Laufzeit ist mit Tauri + Rust + MLX für macOS erstellt. Kostenlose Stufen (Nano und Lite) sind für immer verfügbar unter outlier.host. Ein Video-Demo ist im Reddit-Beitrag enthalten.

📖 Read the full source: r/LocalLLaMA

Qwen3.5-397B MoE läuft auf 14 GB RAM dank geladenen Expertenseiten auf dem M1 Ultra

👀 Siehe auch

VPS vs Dedizierte Maschine: Wo OpenClaw Ausführen

Anleitung: GitHub Copilot mit lokalem LLM unter Windows über Lemonade Server ausführen

Trellis 2 läuft erfolgreich auf ROCm 7.11 mit AMD RX 9070 XT

CLAUDE.md-Dateien sind oft für Entwickler strukturiert, nicht für KI-Modelle – warum das wichtig ist