Qwen3.5 397B Inferenz auf Desktop: FOMOE erreicht 5-9 Tokens/Sek

Was FOMOE löst

Große Mixture-of-Experts-Modelle (MoE) benötigen Hunderte von Gigabyte an Gewichtsspeicher, typischerweise in Flash-Speicher wie NVMe. Während der Inferenz wird nur ein kleiner Teil der Gewichte benötigt, aber man kann nicht vorhersagen, welche dies im Voraus sein werden. Zufällige Zugriffsmuster machen Flash-Latenzen für praktische Inferenz auf Consumer-Hardware zu hoch.

Wie FOMOE funktioniert

Das System macht die meisten Expertengewicht-Lesevorgänge durch mehrere Techniken unnötig:

Speichert die häufigsten Experten im GPU-Speicher (VRAM) mit einem aktuellen rollierenden Experten-Cache
Erreicht eine VRAM-Trefferquote von 60 % mit Warmstart, wodurch NVMe-Lesevorgänge auf 28 % reduziert werden (12 % werden aus dem DRAM bedient)
Verwendet eine Dual-GPU-Ping-Pong-Architektur, um Gewichtsladen und Berechnung zu überlappen
Implementiert Cache-Aware Routing (CAR) – wenn zwei Experten ähnlich gut bewertet werden, wählt das Modell den nächstbesten bewerteten Experten, der sich bereits im VRAM- oder DRAM-Cache innerhalb eines akzeptablen Schwellenwerts befindet

Leistungsergebnisse

5-9 Tokens/Sekunde Inferenzgeschwindigkeit für Qwen3.5s 397B-Parameter-Modell
NVMe-Lesevorgänge auf 7 % mit aktiviertem CAR reduziert
Nur 3,5 % Abfall der Perplexität, gemessen auf Wikitext
Hardwareanforderungen: zwei 500-Dollar-GPUs, 32 GB RAM, ein NVMe-Laufwerk
Verwendet Q4_K_M-Quantisierung

Die Implementierung besteht aus ungefähr 15.000 Zeilen von Claude-gesteuertem C/HIP-Code mit starker menschlicher Anleitung.

📖 Read the full source: r/LocalLLaMA

FOMOE ermöglicht die Inferenz des 397B Qwen3.5-Modells auf Desktop-Hardware für 2.100 US-Dollar

Was FOMOE löst

Wie FOMOE funktioniert

Leistungsergebnisse

👀 Siehe auch

LogClaw: Open-Source AI SRE für automatische Ticket-Erstellung aus Logs

Lightning MLX: Schnelle lokale KI-Engine für Apple Silicon Agentic Use liefert 220 tok/s auf Qwen 35B-A3B

Offenes Design: Open-Source-Alternative zu Claude Design läuft auf Ihren lokalen CLI-Agenten

Obsidian-Integration für Persistent Memory in OpenClaw und Claude Code