Qwen3.6 35B MoE、RTX 5080で128kコンテキスト時56 tok/s、MTPは逆効果に

メインラインllama.cppのコミットb9190でMTP（マルチトークン予測）がマージされました。RTX 5080 16GB上でQwen3.6 35B MoEを128kコンテキストでベンチマークした結果、明確な発見がありました：モデルがGPUに完全に収まらない場合、MTPはパフォーマンスを低下させる。

最適設定（MTP無し）

Qwen3.6-35B-A3B Q4_K_XL --fit-target 1536で131kコンテキストの場合：

生成速度56 tok/s
128kコンテキストでのプロンプト処理速度1,584 tok/s

MTPフラグは不要です。

16GBでMTPが35B MoEを遅くする理由

コーディングエージェントのコンテキスト長でテストした3つの設定：

27B IQ3+MTP：12.45 GB、GPUに完全収容 — 平均73 tok/s（MTPは有効）
35B Q4_K_XL+MTP：約22 GB、部分オフロード — 平均74 tok/s（MTPは有害）
35B Q8_0+MTP：約36 GB、大量オフロード — 平均46 tok/s

MTP無しの場合、35B Q4_K_XLは--fit-target 0（15,815 MiB VRAM）で97 tok/s、--fit-target 1536（14,269 MiB）で86 tok/sを達成。MTPを有効にして--fit-target 1536にすると、速度は74 tok/s（14,623 MiB）に低下 — 23%の減速です。

根本原因：MTPの計算用バッファが約1.5 GBを確保（--fit-target 1536）し、さらに約3つのMoEエキスパート層をGPUからCPUに押し出します。MoE推論はCPU上のエキスパート層がボトルネックとなるため、MTPの79%トークン受理率ではステップ速度の低下を補えません。

27Bモデル（GPUに完全収容）の場合、--fit-target 0はMTPの有無にかかわらず機能するためVRAMペナルティはなく、MTPによって速度が約56から73 tok/sに向上します。

経験則

MTPはモデルがGPUに収まる場合に有効です。MTPの計算用バッファがより多くの層をCPUに押し出す場合には有害です。16GBカードで35B MoEを使用する場合、MTPはスキップしましょう。

テストシステム：RTX 5080 16GB、Ryzen 9 9950X、128GB RAM、llama.cpp b9204（メインライン）。一般的なMTPフラグ：-np 1 --fit on -fa on -t 20 --no-mmap --jinja -ctk q8_0 -ctv q8_0 --spec-type draft-mtp --spec-draft-n-max 2。

📖 出典全文： r/LocalLLaMA

RTX 5080 16GB：Qwen3.6 35B MoE、128kコンテキストで56トークン/秒、そしてMTPが役立たない理由

最適設定（MTP無し）

16GBでMTPが35B MoEを遅くする理由

経験則

👀 See Also

2,181のリモートMCPサーバーエンドポイントの分析により、信頼性の問題が明らかになりました

アトラシアン、AI投資の資金調達のため従業員の10%を削減

Claude Code v2.1.51が通知なしに100万コンテキストの課金を変更しました。

OpenClawでのサブエージェント設定：重要な考慮事項