Qwen 3.5 122B MoEを単一3090で35 t/s：ik

単一のデスクトップで完全ローカル推論スタックを運用する開発者が、Qwen 3.5 122B MoEを1枚の3090のみで35トークン/秒に達したと報告。鍵となったのは、オフロードエキスパート向けMTP（マルチトークン予測）を修正したllama.cppのフォークです。

ハードウェア構成

AMD 9900X CPU
192GB DDR5-5200 RAM（"秘密兵器"）
3090 2枚（Ti + 標準）、NVLinkなし

カード1はワーカーを実行：Qwen3.5-122B-A10B、Unsloth IQ3_S MTP GGUF、コンテキスト204K。エキスパート層の75%を-otフラグでCPUにオフロード。カード2はリーズナーを実行：Qwen3.6-35B-A3B Q4_K_XL、MTPで135 t/s、コンテキスト262K。

追加のCPUのみのインスタンスがバックグラウンド処理を担当：Dialectic（35B heretical Q8）、Scribe-Logos（Gemma4 19B）、Moonshot（Gemma4 2B）— 合計約19GB RAM。

ik_llama.cppの発見

標準のllama.cppのMTPは、推測された各トークンのエキスパートをDDR5経由で順次評価するため、推論コンテンツでは実際にパフォーマンスが低下します—ドラフトのオーバーヘッドが受け入れ速度の向上を上回ります。ikフォークは、推測されたトークンのエキスパート読み取りをバッチ処理する融合MoE演算を実装し、MTPの利得を+4%から+20%に変えました。開発者は、このフォークを使用して122Bモデルで単一の3090から35 t/sのデコードを報告しています。

RAMにエキスパートをオフロードしているMoEモデルをお持ちなら、MTPを諦める前にik_llama.cppをお試しください。