Qwen 3.5 122B MoE mit 35 t/s auf einer einzelnen 3090 mit ik_llama.cpp MTP

Ein Entwickler, der einen vollständig lokalen Inferenz-Stack auf einem einzelnen Desktop betreibt, berichtet von 35 Tokens/s auf Qwen 3.5 122B MoE mit nur einer 3090 – der Schlüssel ist ein Fork von llama.cpp, der MTP (Multi-Token Prediction) für ausgelagerte Experten repariert.
Hardware-Konfiguration
- AMD 9900X CPU
- 192 GB DDR5-5200 RAM („die Geheimwaffe“)
- Zwei 3090er (Ti + Standard), ohne NVLink
Karte 1 betreibt den Worker: Qwen3.5-122B-A10B mit Unsloth IQ3_S MTP GGUF und 204K Kontext. 75 % der Expertenlayer werden über chirurgische -ot-Flags zur CPU ausgelagert. Karte 2 betreibt den Reasoner: Qwen3.6-35B-A3B Q4_K_XL mit MTP bei 135 t/s und 262K Kontext.
Zusätzliche CPU-Instanzen übernehmen Hintergrundprozesse: Dialectic (35B heretic Q8), Scribe-Logos (Gemma4 19B), Moonshot (Gemma4 2B) – insgesamt ~19 GB RAM.
Die ik_llama.cpp-Erkenntnis
Standard-llama.cpps MTP evaluiert die Experten jedes spekulierten Tokens sequenziell über DDR5, was bei Reasoning-Inhalten die Leistung sogar verschlechtert – der Overhead der Vorhersage überwiegt die Beschleunigung durch Akzeptanz. Der ik-Fork implementiert fusionierte MoE-Operationen, die Experten-Lesevorgänge für spekulierte Tokens bündeln und MTP von einer +4%-Steigerung auf +20% heben. Der Entwickler berichtet von 35 t/s Dekodierung auf einem 122B-Modell mit einer einzigen 3090 unter Verwendung dieses Forks.
Wenn Sie Experten auf einem beliebigen MoE-Modell in den RAM auslagern, probieren Sie ik_llama.cpp, bevor Sie MTP aufgeben.
Gesamtkosten des Builds
- ~1600 $ für RAM
- ~1600 $ für zwei 3090er
- ~400 $ für alles andere
- Laufende Kosten: nur Strom
📖 Lesen Sie die vollständige Quelle: r/openclaw
👀 Siehe auch

Claude-Code-Struktur, die mehrere reale Projekte überstanden hat
Ein Entwickler teilt ein Claude Code-Setup, das sich bei 2-3 realen Projekten mit mehreren Skills, MCP-Servern und Agents bewährt hat. Zu den wichtigsten Erkenntnissen gehören die Verwendung von CLAUDE MD für Konsistenz, das Aufteilen von Skills nach Zweck, die Implementierung von Hooks und die Begrenzung der Kontextnutzung auf unter 60 %.

OpenClaw v2.0-Update: Wichtige Checkliste vor dem Update, um Breaking Changes zu vermeiden
Das neueste Update von OpenClaw führt 12 Breaking Changes ein, ein neues Plugin-System und über 30 Sicherheitspatches. Diese Anleitung beschreibt fünf wesentliche Prüfungen, die vor dem Update durchgeführt werden sollten, einschließlich der Umbenennung von Umgebungsvariablen, der Migration des Zustandsverzeichnisses und der Neukonfiguration der Browser-Automatisierung.

Verwendung von Claude zur Analyse von Schreibmustern für bessere individuelle Anweisungen
Ein Reddit-Nutzer beschreibt eine Methode zur Erstellung effektiverer individueller Anweisungen, indem Claude 10 Schreibproben analysiert, um konkrete Muster wie die Vermeidung bestimmter Satzzeichen und Analogiequellen zu identifizieren, anstatt sich auf subjektive Tonbeschreibungen zu verlassen.

Mit OpenClaws sieben Optimierungstechniken Token-Kosten um 95 % senken
Ein umfassender Leitfaden, der sieben Techniken zur Reduzierung des KI-Agenten-Tokenverbrauchs um über 95% beschreibt, darunter baumstrukturierte Boot-Dateien, KI-Auto-Kompression, lokale Modellauslagerung und cron-basierte CPU-Aufgaben.