MTP受入率:50%閾値が投機的デコードの恩恵を決定づける

✍️ OpenClawRadar📅 公開日: May 9, 2026🔗 Source
MTP受入率:50%閾値が投機的デコードの恩恵を決定づける
Ad

Redditユーザーが、mlx-vlmを使用してGemma-4(26B、4ビット)でMTP(マルチトークン予測)をテストし、パフォーマンスが候補トークンの受け入れ率に完全に依存することを発見しました。M4 Max Studioでの測定により、具体的な閾値が明らかになりました。

ワークロードの結果

  • コード生成: 75 tok/s → 114.8 tok/s(1.53倍高速) — 受け入れ率:スロットの66%
  • 長文散文: 75 tok/s → 71.1 tok/s(0.95倍、ほぼ横ばい) — 受け入れ率:スロットの31%
  • JSON出力: 51.3 tok/s → 25.6 tok/s(0.50倍、低速化) — 受け入れ率:スロットの8%

閾値は約50%の受け入れ率であるようです。それ以下では、投機的デコードのオーバーヘッドが利得を上回ります。

テストの詳細:コードは「Xを行うPython関数をいくつか書く」、長文散文は「唐王朝の紙幣について800語のエッセイを書く」、JSON出力は、項目を類似性でグループ化して構造化出力を生成するものでした。

おまけのヒント:ユーザーは、GemmaのJSON構造指示のフォローはまずまずだが、構造化出力(json_schema)を有効にすると約20%のオーバーヘッドがかかると指摘しています。多少不正確なJSONを受け入れ、実行時に修正することを推奨しています。mlx-vlmは投機的デコード向けのjson_schemaをサポートしていません。

結論: MTPはローカルコーディングには優れていますが、受け入れ率が低い構造化タスクや散文タスクではパフォーマンスが低下する可能性があります。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

OpenClawがAPIコスト修正とローカルモデルツールの改善を実施
Tips

OpenClawがAPIコスト修正とローカルモデルツールの改善を実施

OpenClawは、API利用コストへの対応とローカルモデルツール連携の改善を含む重要なアップデートを実施し、開発者体験と運用効率を向上させました。

OpenClawRadar
Claude Code ヘッドレスモードと--printフラグ
Tips

Claude Code ヘッドレスモードと--printフラグ

Claude Codeは--printフラグを使用してヘッドレスモードで実行でき、プロンプトをパイプで渡して自動的に出力を得ることができます。これにより、インタラクティブセッションなしでCI/CDパイプライン、gitフック、bashスクリプトへの統合が可能になります。

OpenClawRadar
ルーティングによりOpenClaw Maxの利用コストが85%削減:APIルーティングで月額200ドルから30ドルへ
Tips

ルーティングによりOpenClaw Maxの利用コストが85%削減:APIルーティングで月額200ドルから30ドルへ

あるユーザーがトークン使用量を追跡したところ、タスクのわずか15%だけがOpusを必要とすることが判明しました。API経由でルーチン業務をSonnetにルーティングすることで、月額コストが200ドルから30ドルに削減され、出力品質は変わりませんでした。

OpenClawRadar
事前出力プロンプトインジェクションによるClaudeの幻覚を軽減
Tips

事前出力プロンプトインジェクションによるClaudeの幻覚を軽減

Redditの投稿では、モデルが応答する前に不確実性と次のステップを記録するように強制する事前出力プロンプトを使用して、Claude AIの幻覚を半分に削減する方法が詳述されています。このアプローチには、Claudeのシステムプロンプトに特定のマークダウン指示を追加し、Pythonスクリプトを作成することが含まれます。

OpenClawRadar