MTP + ユニファイドメモリがRTX 5090でllama.cpp推論を30%高速化
llama.cpp で GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 とマルチトークン予測 (MTP) 推測を組み合わせると、スループットが約 30% 向上します。Qwen3.6-27B Q8_0 モデルで 49 tok/sec から 64 tok/sec になります。ベンチマークは、RTX 5090 に 128GB DDR5 5600 CL36 と Ryzen 9 9950X3D を組み合わせた環境で実行されました。
コマンドと設定
CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \
-m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \
--threads 16 \
-c 262144 -fa on -np 1 \
--spec-type mtp --spec-draft-n-max 3 \
--webui-mcp-proxy \
--chat-template-kwargs '{"preserve_thinking": true}' \
--host 0.0.0.0 \
--port 8090 \
--jinja
主要なフラグ:
GGML_CUDA_ENABLE_UNIFIED_MEMORY=1— GPU がホストメモリに直接アクセスできるようにし、大きなコンテキストでの CUDA malloc を回避します。--spec-type mtp --spec-draft-n-max 3— ドラフト深さ 3 のマルチトークン予測推測を有効にします。Qwen3.6-27B-Q8_0.gguf— Q8_0 に量子化された 27B パラメータの Qwen3.6 モデルで、Unsloth の MTP サポートで準備されています。-c 262144— 256K コンテキストウィンドウ;-fa onでフラッシュアテンションを有効化。
結果
- MTP なし (統一メモリのみ): 49 tok/sec
- MTP + 統一メモリ: 64 tok/sec
- 向上率: 30% のスループット向上
draft-n-max が 3 の場合、モデルは最大 3 トークン先を推測し、逐次デコードのオーバーヘッドを削減します。統一メモリと組み合わせることで、CPU と GPU RAM 間の高コストな PCIe 転送を回避します。
対象ユーザー
大容量コンテキストのローカル推論を高性能コンシューマー GPU (RTX 5090) と十分なシステム RAM (128GB 以上) で実行する開発者。チャットボット、コードアシスタント、または投機的サンプリングがサポートされるレイテンシ重視の LLM ワークロードに適しています。
📖 ソース全文: r/LocalLLaMA
👀 See Also

DAUB MCPサーバーは、ClaudeがJSON仕様書を通じてUIを生成・レンダリングできるようにします。
DAUBは、Claudeが自然言語プロンプトから直接UIインターフェースを生成できるようにするMCPサーバーで、コード生成やコンパイルなしにライブインターフェースとしてレンダリングされる構造化JSON仕様を生成します。generate_ui、render_spec、validate_spec、get_component_catalogの4つのツールを公開しています。

OctoArch v5.0:JSONベースのAIペルソナを備えたゼロトラストB2Bランタイム
OctoArch v5.0は、財務/請求書抽出などの厳格な企業ユースケース向けに構築されたゼロトラストB2B認知ランタイムです。テキストベースのプロンプティングをJSON定義のAIペルソナに置き換え、サーバー攻撃を防ぐためのパス監禁を実装しています。

ClaudeOrb:Claude APIの使用状況をリアルタイムで監視するChrome拡張機能
開発者がClaudeOrbという無料のChrome拡張機能を作成しました。これはClaudeのセッション使用率、週間制限、カウントダウンタイマー、Claude Codeのコスト、7日間の支出傾向を表示します。このツールは、警告なしにレート制限に達した後、Claude Codeを使用して作成されました。

開発者が108のツールを備えたPower Automate MCPサーバーを構築、クロスプラットフォーム対応
ある開発者が、ベンダー提供のソリューションを断り、カスタムのPower Automate MCPサーバーを構築し、ツールを12から108に拡張しました。これにより、ODataを介したDataverseのCRUD操作、Graphを介したSharePoint管理、Power Appsのバージョン管理と権限設定、環境管理(作成、コピー、バックアップ、復元)、そしてWindows、macOS、Linuxのクロスプラットフォームサポートをカバーするようになりました。