MTP受入率50%超で投機的デコード効果: Gemma-4 26B検証

Redditユーザーが、mlx-vlmを使用してGemma-4（26B、4ビット）でMTP（マルチトークン予測）をテストし、パフォーマンスが候補トークンの受け入れ率に完全に依存することを発見しました。M4 Max Studioでの測定により、具体的な閾値が明らかになりました。

ワークロードの結果

コード生成： 75 tok/s → 114.8 tok/s（1.53倍高速） — 受け入れ率：スロットの66%
長文散文： 75 tok/s → 71.1 tok/s（0.95倍、ほぼ横ばい） — 受け入れ率：スロットの31%
JSON出力： 51.3 tok/s → 25.6 tok/s（0.50倍、低速化） — 受け入れ率：スロットの8%

閾値は約50%の受け入れ率であるようです。それ以下では、投機的デコードのオーバーヘッドが利得を上回ります。

テストの詳細：コードは「Xを行うPython関数をいくつか書く」、長文散文は「唐王朝の紙幣について800語のエッセイを書く」、JSON出力は、項目を類似性でグループ化して構造化出力を生成するものでした。

おまけのヒント：ユーザーは、GemmaのJSON構造指示のフォローはまずまずだが、構造化出力（json_schema）を有効にすると約20%のオーバーヘッドがかかると指摘しています。多少不正確なJSONを受け入れ、実行時に修正することを推奨しています。mlx-vlmは投機的デコード向けのjson_schemaをサポートしていません。

結論： MTPはローカルコーディングには優れていますが、受け入れ率が低い構造化タスクや散文タスクではパフォーマンスが低下する可能性があります。

📖 Read the full source: r/LocalLLaMA

MTP受入率：50%閾値が投機的デコードの恩恵を決定づける

ワークロードの結果

👀 See Also

Claude Codeにおけるトークン使用のヒント

日本語: エージェント対応コードベース：否定ルール、正確な命名、ディレクトリのREADME

チャット質問でクロードコードトークンを無駄遣いするのをやめよう

クロードはコーディングが苦手ではない ― あなたのコンテキスト設定が問題なのだ