FOMOE ermöglicht die Inferenz des 397B Qwen3.5-Modells auf Desktop-Hardware für 2.100 US-Dollar

✍️ OpenClawRadar📅 Veröffentlicht: 29. März 2026🔗 Source
FOMOE ermöglicht die Inferenz des 397B Qwen3.5-Modells auf Desktop-Hardware für 2.100 US-Dollar
Ad

Was FOMOE löst

Große Mixture-of-Experts-Modelle (MoE) benötigen Hunderte von Gigabyte an Gewichtsspeicher, typischerweise in Flash-Speicher wie NVMe. Während der Inferenz wird nur ein kleiner Teil der Gewichte benötigt, aber man kann nicht vorhersagen, welche dies im Voraus sein werden. Zufällige Zugriffsmuster machen Flash-Latenzen für praktische Inferenz auf Consumer-Hardware zu hoch.

Wie FOMOE funktioniert

Das System macht die meisten Expertengewicht-Lesevorgänge durch mehrere Techniken unnötig:

  • Speichert die häufigsten Experten im GPU-Speicher (VRAM) mit einem aktuellen rollierenden Experten-Cache
  • Erreicht eine VRAM-Trefferquote von 60 % mit Warmstart, wodurch NVMe-Lesevorgänge auf 28 % reduziert werden (12 % werden aus dem DRAM bedient)
  • Verwendet eine Dual-GPU-Ping-Pong-Architektur, um Gewichtsladen und Berechnung zu überlappen
  • Implementiert Cache-Aware Routing (CAR) – wenn zwei Experten ähnlich gut bewertet werden, wählt das Modell den nächstbesten bewerteten Experten, der sich bereits im VRAM- oder DRAM-Cache innerhalb eines akzeptablen Schwellenwerts befindet
Ad

Leistungsergebnisse

  • 5-9 Tokens/Sekunde Inferenzgeschwindigkeit für Qwen3.5s 397B-Parameter-Modell
  • NVMe-Lesevorgänge auf 7 % mit aktiviertem CAR reduziert
  • Nur 3,5 % Abfall der Perplexität, gemessen auf Wikitext
  • Hardwareanforderungen: zwei 500-Dollar-GPUs, 32 GB RAM, ein NVMe-Laufwerk
  • Verwendet Q4_K_M-Quantisierung

Die Implementierung besteht aus ungefähr 15.000 Zeilen von Claude-gesteuertem C/HIP-Code mit starker menschlicher Anleitung.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

MCP-Loci: Lokaler persistenter Speicherserver für Claude und MCP-kompatible KI
Werkzeuge

MCP-Loci: Lokaler persistenter Speicherserver für Claude und MCP-kompatible KI

MCP-Loci ist ein persistentes Speichersystem, das Claudes sitzungsbasierte Speicherbeschränkung mit fünf Werkzeugen löst: remember, recall, forget, synthesize und health. Es nutzt eine hybride Kombination aus BM25-Schlüsselwortabgleich und semantischen Embeddings für präzises Abrufen ohne API-Schlüssel.

OpenClawRadar
Mobile Harness: Browser-Use-Fähigkeiten für Claude-Agenten in Mobile Apps integrieren
Werkzeuge

Mobile Harness: Browser-Use-Fähigkeiten für Claude-Agenten in Mobile Apps integrieren

Mobile Harness gibt Claude/Agenten wiederverwendbare mobile App-Fähigkeiten (Reddit, Instagram, TikTok) unter Verwendung von MobAI als Ausführungsschicht. Funktioniert mit echten Geräten, Emulatoren, Simulatoren, kostenloses tägliches Kontingent.

OpenClawRadar
BrowserKing: Open-Source Chrome-Erweiterung zur Browsersteuerung über Claude und andere Modelle
Werkzeuge

BrowserKing: Open-Source Chrome-Erweiterung zur Browsersteuerung über Claude und andere Modelle

BrowserKing ist eine kostenlose, quelloffene Chrome-Erweiterung, die Claude und über 15 weitere Modelle ermöglicht, Ihren Browser von einer Seitenleiste aus zu sehen und zu steuern. Sie macht Screenshots, sendet sie an das Modell und setzt dann Entscheidungen um, um Buttons zu klicken, Formulare auszufüllen, zu scrollen und Tabs zu navigieren.

OpenClawRadar
MCP-Server ermöglicht es Claude, zur Laufzeit benutzerdefinierte Tools zu erstellen und auszuführen
Werkzeuge

MCP-Server ermöglicht es Claude, zur Laufzeit benutzerdefinierte Tools zu erstellen und auszuführen

Ein Entwickler hat einen MCP-Server gebaut, bei dem Claude neue Tools erstellen, aktualisieren und ausführen kann, ohne dass eine erneute Bereitstellung erforderlich ist. Das System verwendet fünf Kern-Tools und führt benutzerdefinierten JavaScript/TypeScript-Code in einer Deno-Sandbox mit etwa 50 ms Kaltstart aus.

OpenClawRadar