Qwen 3.5 122B MoEが一つの3090上で35 t/s、ik_llama.cpp MTPを使用

単一のデスクトップで完全ローカル推論スタックを運用する開発者が、Qwen 3.5 122B MoEを1枚の3090のみで35トークン/秒に達したと報告。鍵となったのは、オフロードエキスパート向けMTP(マルチトークン予測)を修正したllama.cppのフォークです。
ハードウェア構成
- AMD 9900X CPU
- 192GB DDR5-5200 RAM("秘密兵器")
- 3090 2枚(Ti + 標準)、NVLinkなし
カード1はワーカーを実行:Qwen3.5-122B-A10B、Unsloth IQ3_S MTP GGUF、コンテキスト204K。エキスパート層の75%を-otフラグでCPUにオフロード。カード2はリーズナーを実行:Qwen3.6-35B-A3B Q4_K_XL、MTPで135 t/s、コンテキスト262K。
追加のCPUのみのインスタンスがバックグラウンド処理を担当:Dialectic(35B heretical Q8)、Scribe-Logos(Gemma4 19B)、Moonshot(Gemma4 2B)— 合計約19GB RAM。
ik_llama.cppの発見
標準のllama.cppのMTPは、推測された各トークンのエキスパートをDDR5経由で順次評価するため、推論コンテンツでは実際にパフォーマンスが低下します—ドラフトのオーバーヘッドが受け入れ速度の向上を上回ります。ikフォークは、推測されたトークンのエキスパート読み取りをバッチ処理する融合MoE演算を実装し、MTPの利得を+4%から+20%に変えました。開発者は、このフォークを使用して122Bモデルで単一の3090から35 t/sのデコードを報告しています。
RAMにエキスパートをオフロードしているMoEモデルをお持ちなら、MTPを諦める前にik_llama.cppをお試しください。
総構築コスト
- RAM: 約$1600
- 3090 2枚: 約$1600
- その他: 約$400
- 運用コスト: 電気代のみ
📖 全文ソース: r/openclaw
👀 See Also

MCPサーバーを自作インストールさせる:3つのホスト、3つのメカニズム、落とし穴
VS Code、Cursor、Claude CodeでMCPサーバーをプログラムからインストールする方法を詳しく解説。API、ファイル書き込み、不正なJSON、アトミック書き込み、冪等更新のようなエッジケースもカバー。

OpenClaw:究極のクイックリファレンス・チートシート
OpenClawの詳細を、便利なリファレンスチートシートで探求しましょう。AIコーディング体験を効率化するための重要な機能と特徴を抽出します。

アンソピックがClaude AIの無料公式学習プラットフォームをリリース
Anthropicは、Claudeの基礎、API統合、エージェントスキル、および異なるユーザーグループ向けの専門トラックをカバーする構造化コースを備えた無料学習プラットフォームを立ち上げました。

40回のプロンプト修正がClaude AI要約を製品に変えた方法:個別指導プラットフォームのケーススタディ(月額19,000ドル収益)
月間19Kドルの収益を生む学習塾が、Claudeによるセッションサマリーのプロンプトを12ヶ月で40回以上改良。v1の曖昧さからv40のパーソナライズへの進化は、プロンプトエンジニアリングが機能を製品に変える過程を示しています。