Qwen 3.5 122B MoE à 35 t/s sur une seule 3090 avec ik_llama.cpp MTP

✍️ OpenClawRadar📅 Publié: June 6, 2026🔗 Source
Qwen 3.5 122B MoE à 35 t/s sur une seule 3090 avec ik_llama.cpp MTP
Ad

Un développeur exécutant un stack d'inférence entièrement local sur un seul bureau rapporte atteindre 35 tokens/s sur Qwen 3.5 122B MoE en utilisant seulement une 3090, le facilitateur clé étant un fork de llama.cpp qui corrige MTP (Multi-Token Prediction) pour les experts déchargés.

Configuration matérielle

  • CPU AMD 9900X
  • 192 Go DDR5-5200 RAM (surnommée « l'arme secrète »)
  • Deux 3090 (Ti + standard), sans NVLink

La carte 1 exécute le worker : Qwen3.5-122B-A10B utilisant Unsloth IQ3_S MTP GGUF avec un contexte de 204K. 75 % des couches expertes sont déchargées sur le CPU via des drapeaux -ot précis. La carte 2 exécute le raisonneur : Qwen3.6-35B-A3B Q4_K_XL avec MTP à 135 t/s, contexte de 262K.

Des instances supplémentaires uniquement CPU gèrent le traitement en arrière-plan : Dialectic (35B heretic Q8), Scribe-Logos (Gemma4 19B), Moonshot (Gemma4 2B) — totalisant environ 19 Go RAM.

Ad

La découverte d'ik_llama.cpp

Le MTP du llama.cpp standard évalue séquentiellement les experts de chaque token spéculé via la DDR5, ce qui sur du contenu de raisonnement régresse en fait les performances — le surcoût de l'ébauche dépasse le gain d'acceptation. Le fork ik implémente des opérations MoE fusionnées qui regroupent les lectures d'experts pour les tokens spéculés, transformant le MTP d'un gain de +4 % en un gain de +20 %. Le développeur rapporte un décodage à 35 t/s sur un modèle 122B à partir d'une seule 3090 en utilisant ce fork.

Si vous déchargez des experts vers la RAM sur un modèle MoE, essayez ik_llama.cpp avant d'abandonner le MTP.

Coût total de la construction

  • ~1600 $ pour la RAM
  • ~1600 $ pour deux 3090
  • ~400 $ pour tout le reste
  • Coût de fonctionnement : électricité uniquement

📖 Lire la source complète : r/openclaw

Ad

👀 See Also

Comment exécuter OpenClaw entièrement en local avec Ollama
Guides

Comment exécuter OpenClaw entièrement en local avec Ollama

Un post sur Reddit décrit une méthode pour exécuter OpenClaw entièrement en local, sans recourir à des API cloud ou à une facturation par jeton, en utilisant Ollama et LLMFit pour évaluer les performances des modèles locaux.

OpenClawRadar
Résultats des tests du plugin de mémoire OpenClaw et pile recommandée
Guides

Résultats des tests du plugin de mémoire OpenClaw et pile recommandée

Un utilisateur de Reddit a testé tous les plugins de mémoire OpenClaw et a constaté que la configuration par défaut en markdown provoque un gonflement des tokens et une compression des instructions. La configuration recommandée combine Obsidian pour des notes lisibles par l'homme, QMD pour une recherche sans coût en tokens, et SQLite pour les données structurées.

OpenClawRadar
Correction de l'erreur 'Service VM non démarré' dans Cowork sur Windows 11
Guides

Correction de l'erreur 'Service VM non démarré' dans Cowork sur Windows 11

Un utilisateur de Reddit partage une commande PowerShell pour corriger l'erreur 'Service VM non exécuté' dans Cowork lorsque Hyper-V est installé mais que l'hyperviseur ne démarre pas au boot. La solution consiste à vérifier hypervisorlaunchtype et à le définir sur auto.

OpenClawRadar
Utilisateurs d'OpenClaw Docker : Épinglez au commit 0c926a2c5 pour corriger les extensions Discord et de salon défectueuses.
Guides

Utilisateurs d'OpenClaw Docker : Épinglez au commit 0c926a2c5 pour corriger les extensions Discord et de salon défectueuses.

Après avoir mis à jour OpenClaw via Docker, les extensions de canaux comme Discord, Signal et WhatsApp échouent avec des erreurs d'importation de modules. Le problème provient du commit d9c285e93 et d'un second bug spécifique à Docker. Utilisez le commit 0c926a2c5 pour une solution de contournement stable.

OpenClawRadar