Qwen3.5-397B MoE läuft auf 14 GB RAM dank geladenen Expertenseiten auf dem M1 Ultra

Ein Reddit-Beitrag von u/ur_dad_matt (via Claude) zeigt eine benutzerdefinierte Paged-MoE-Engine, die Qwen3.5-397B-A17B (209 GB auf der Festplatte, 512 Experten, Top-10-Routing) auf einem M1 Ultra 64 GB Mac Studio mit nur 14 GB RAM-Spitzenlast und 1,59 tok/s Inferenzgeschwindigkeit ausführt. Das Modell ist zu groß, um es naiv zu laden; die Engine behält nur K=20 Experten im RAM, lädt den Rest bei Bedarf von der SSD nach und verdrängt sie bei Cache-Druck. Die Berechnung verwendet Float16 (schneller als ternär auf MPS), Apple Silicon nativ, MLX-basiert.
Benchmark-Ergebnisse aus einem 5-Prompt-Durchlauf auf M1 Ultra 64 GB:
- Geschwindigkeit: 1,59 tok/s (Mittelwert über 5 kohärente Generierungen, K=20)
- Cache-RSS-Spitze (Generierung): 7,91 GB
- Gesamt-RSS-Spitze: 14,04 GB
- Kohärente Ausgaben: 5/5
Optimale Engine-Konfiguration: K_override=20, cache_gb=8.0, OUTLIER_MMAP_EXPERTS=0, lazy_load=True. Erste Versuche mit allen Experten auf der Festplatte führten zu Fehlern bei der Befehls-Puffer-Zuweisung, bis die Cache-Größe angepasst wurde.
Der Autor argumentiert, dass Rohpunktzahlen-Benchmarks für lokale LLMs auf 64-GB-Hardware den Punkt verfehlen; die entscheidende Metrik ist MMLU pro GB RAM. Bei 1,59 tok/s läuft das Modell im „Denktempo“, nicht im Chat-Tempo, und zeigt die Obergrenze des Modell-zu-Speicher-Verhältnisses.
Geschwindigkeiten für kleinere quantisierte Modelle auf derselben Hardware (MLX-4bit):
- 4B Nano: 71,7 tok/s
- 9B Lite: 53,4 tok/s
- 26B-A4B Quick: 14,6 tok/s
- 27B Core: 40,7 tok/s (MMLU 0,851 n=14042 σ=0,003, HumanEval 0,866 n=164 σ=0,027)
- 35B-A3B Vision: 64,1 tok/s
- 397B Plus: 1,59 tok/s
Die Laufzeit ist mit Tauri + Rust + MLX für macOS erstellt. Kostenlose Stufen (Nano und Lite) sind für immer verfügbar unter outlier.host. Ein Video-Demo ist im Reddit-Beitrag enthalten.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Ein Einzelentwickler-Zweiphasen-Prompting-Verfahren für große Projekte mit Claude AI
Ein Einzelentwickler teilt einen Workflow, bei dem Claude Chat als Architekt und Claude Code als Builder fungiert, mit einer zweiphasigen Prompt-Methode, die Fehlermodusanalyse und Verifizierungsschleusen beinhaltet.

Lokale Claude-Code-Einrichtung mit Qwen3.5 27B über llama.cpp
Ein Entwickler teilt seine Konfiguration für den lokalen Betrieb von Claude Code mit Qwen3.5 27B und llama.cpp, einschließlich Umgebungsvariablen, Serverparametern und Leistungsbenchmarks über sieben Programmieraufgaben.

OpenClaw-Einrichtungsanleitung basierend auf Reddit-Analyse: Hardware, Kosten, Speicher und Sicherheitspraktiken
Ein Reddit-Nutzer analysierte häufige OpenClaw-Fehler und erstellte eine Einrichtungsanleitung, die Hardware-Anforderungen, Kostenoptimierung auf 10 $/Monat, Speicherverwaltung mit MEMORY.md-Dateien und Sicherheitspraktiken zur Verhinderung von Prompt-Injection-Angriffen abdeckt.

Behebung von Autonomieproblemen des OpenClaw-Agenten: Skill-Dateien, Tool-Auswahl und Cron-Einrichtung
Ein Entwickler teilt Lösungen für OpenClaw-Agenten, die nach der Erstkonfiguration nicht mehr autonom arbeiten. Wichtige Korrekturen umfassen die Verwendung externer Skill-Dateien anstatt Chat-Anweisungen, den Ersatz von Browser-Tools durch API-basierte Tools oder Puppeteer-Skripte sowie die korrekte Konfiguration von Cron-Jobs.