RTX 5080 16GB:Qwen3.6 35B MoE、128kコンテキストで56トークン/秒、そしてMTPが役立たない理由

メインラインllama.cppのコミットb9190でMTP(マルチトークン予測)がマージされました。RTX 5080 16GB上でQwen3.6 35B MoEを128kコンテキストでベンチマークした結果、明確な発見がありました:モデルがGPUに完全に収まらない場合、MTPはパフォーマンスを低下させる。
最適設定(MTP無し)
Qwen3.6-35B-A3B Q4_K_XL --fit-target 1536で131kコンテキストの場合:
- 生成速度56 tok/s
- 128kコンテキストでのプロンプト処理速度1,584 tok/s
MTPフラグは不要です。
16GBでMTPが35B MoEを遅くする理由
コーディングエージェントのコンテキスト長でテストした3つの設定:
- 27B IQ3+MTP:12.45 GB、GPUに完全収容 — 平均73 tok/s(MTPは有効)
- 35B Q4_K_XL+MTP:約22 GB、部分オフロード — 平均74 tok/s(MTPは有害)
- 35B Q8_0+MTP:約36 GB、大量オフロード — 平均46 tok/s
MTP無しの場合、35B Q4_K_XLは--fit-target 0(15,815 MiB VRAM)で97 tok/s、--fit-target 1536(14,269 MiB)で86 tok/sを達成。MTPを有効にして--fit-target 1536にすると、速度は74 tok/s(14,623 MiB)に低下 — 23%の減速です。
根本原因:MTPの計算用バッファが約1.5 GBを確保(--fit-target 1536)し、さらに約3つのMoEエキスパート層をGPUからCPUに押し出します。MoE推論はCPU上のエキスパート層がボトルネックとなるため、MTPの79%トークン受理率ではステップ速度の低下を補えません。
27Bモデル(GPUに完全収容)の場合、--fit-target 0はMTPの有無にかかわらず機能するためVRAMペナルティはなく、MTPによって速度が約56から73 tok/sに向上します。
経験則
MTPはモデルがGPUに収まる場合に有効です。MTPの計算用バッファがより多くの層をCPUに押し出す場合には有害です。16GBカードで35B MoEを使用する場合、MTPはスキップしましょう。
テストシステム:RTX 5080 16GB、Ryzen 9 9950X、128GB RAM、llama.cpp b9204(メインライン)。一般的なMTPフラグ:-np 1 --fit on -fa on -t 20 --no-mmap --jinja -ctk q8_0 -ctv q8_0 --spec-type draft-mtp --spec-draft-n-max 2。
📖 出典全文: r/LocalLLaMA
👀 See Also

AIとデータセンターが牽引する米国の電力需要、2026~2027年に過去最高へ
米国エネルギー情報局(EIA)は、AIワークロードとデータセンターの拡大を主な要因として、2026~2027年に電力消費が過去最高を記録するとの予測を発表した。

マルチエージェントAIシステムにおける関係性ガバナンスの必要性
現在のガバナンスフレームワークは、アイデンティティ、権限、キルスイッチに焦点を当てていますが、エージェント間の調整には対応できていません。セールスフォースの研究によると、エージェント間の相互作用には専用のソリューションが必要であり、交渉においては支配よりも温かみが優れた結果をもたらすことが研究で明らかになっています。

HNのデータは、arXiv論文のシェアが減少していることを確認しており、LLM(大規模言語モデル)への過熱感はピークを過ぎたのだろうか?
Dylan CastilloはClaudeを使ってHN BigQueryデータをクエリし、LLMが支配的だった2023〜2026年のピーク後、ここ数ヶ月でarXivへのリンクがあるトップページのストーリーの割合が急速に減少していることを発見した。

Anthropic、1億ドルの投資でClaudeパートナーネットワークを立ち上げ
アンソロピックは、2026年までに初期投資1億ドルを投じてClaudeパートナーネットワークを立ち上げ、企業がClaudeを導入するのを支援する組織に対してトレーニング、技術サポート、共同市場開発を提供します。パートナーは技術認定、トレーニング教材を備えたパートナーポータルへのアクセス、レガシーコード移行のためのコード近代化スターターキットを利用できます。