FOMOE ermöglicht die Inferenz des 397B Qwen3.5-Modells auf Desktop-Hardware für 2.100 US-Dollar

Was FOMOE löst
Große Mixture-of-Experts-Modelle (MoE) benötigen Hunderte von Gigabyte an Gewichtsspeicher, typischerweise in Flash-Speicher wie NVMe. Während der Inferenz wird nur ein kleiner Teil der Gewichte benötigt, aber man kann nicht vorhersagen, welche dies im Voraus sein werden. Zufällige Zugriffsmuster machen Flash-Latenzen für praktische Inferenz auf Consumer-Hardware zu hoch.
Wie FOMOE funktioniert
Das System macht die meisten Expertengewicht-Lesevorgänge durch mehrere Techniken unnötig:
- Speichert die häufigsten Experten im GPU-Speicher (VRAM) mit einem aktuellen rollierenden Experten-Cache
- Erreicht eine VRAM-Trefferquote von 60 % mit Warmstart, wodurch NVMe-Lesevorgänge auf 28 % reduziert werden (12 % werden aus dem DRAM bedient)
- Verwendet eine Dual-GPU-Ping-Pong-Architektur, um Gewichtsladen und Berechnung zu überlappen
- Implementiert Cache-Aware Routing (CAR) – wenn zwei Experten ähnlich gut bewertet werden, wählt das Modell den nächstbesten bewerteten Experten, der sich bereits im VRAM- oder DRAM-Cache innerhalb eines akzeptablen Schwellenwerts befindet
Leistungsergebnisse
- 5-9 Tokens/Sekunde Inferenzgeschwindigkeit für Qwen3.5s 397B-Parameter-Modell
- NVMe-Lesevorgänge auf 7 % mit aktiviertem CAR reduziert
- Nur 3,5 % Abfall der Perplexität, gemessen auf Wikitext
- Hardwareanforderungen: zwei 500-Dollar-GPUs, 32 GB RAM, ein NVMe-Laufwerk
- Verwendet Q4_K_M-Quantisierung
Die Implementierung besteht aus ungefähr 15.000 Zeilen von Claude-gesteuertem C/HIP-Code mit starker menschlicher Anleitung.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

MCP-Loci: Lokaler persistenter Speicherserver für Claude und MCP-kompatible KI
MCP-Loci ist ein persistentes Speichersystem, das Claudes sitzungsbasierte Speicherbeschränkung mit fünf Werkzeugen löst: remember, recall, forget, synthesize und health. Es nutzt eine hybride Kombination aus BM25-Schlüsselwortabgleich und semantischen Embeddings für präzises Abrufen ohne API-Schlüssel.

Mobile Harness: Browser-Use-Fähigkeiten für Claude-Agenten in Mobile Apps integrieren
Mobile Harness gibt Claude/Agenten wiederverwendbare mobile App-Fähigkeiten (Reddit, Instagram, TikTok) unter Verwendung von MobAI als Ausführungsschicht. Funktioniert mit echten Geräten, Emulatoren, Simulatoren, kostenloses tägliches Kontingent.

BrowserKing: Open-Source Chrome-Erweiterung zur Browsersteuerung über Claude und andere Modelle
BrowserKing ist eine kostenlose, quelloffene Chrome-Erweiterung, die Claude und über 15 weitere Modelle ermöglicht, Ihren Browser von einer Seitenleiste aus zu sehen und zu steuern. Sie macht Screenshots, sendet sie an das Modell und setzt dann Entscheidungen um, um Buttons zu klicken, Formulare auszufüllen, zu scrollen und Tabs zu navigieren.

MCP-Server ermöglicht es Claude, zur Laufzeit benutzerdefinierte Tools zu erstellen und auszuführen
Ein Entwickler hat einen MCP-Server gebaut, bei dem Claude neue Tools erstellen, aktualisieren und ausführen kann, ohne dass eine erneute Bereitstellung erforderlich ist. Das System verwendet fünf Kern-Tools und führt benutzerdefinierten JavaScript/TypeScript-Code in einer Deno-Sandbox mit etwa 50 ms Kaltstart aus.