MTP + ユニファイドメモリがRTX 5090でllama.cpp推論を30%高速化

✍️ OpenClawRadar📅 公開日: May 12, 2026🔗 Source
Ad

llama.cpp で GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 とマルチトークン予測 (MTP) 推測を組み合わせると、スループットが約 30% 向上します。Qwen3.6-27B Q8_0 モデルで 49 tok/sec から 64 tok/sec になります。ベンチマークは、RTX 5090 に 128GB DDR5 5600 CL36 と Ryzen 9 9950X3D を組み合わせた環境で実行されました。

コマンドと設定

CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \
    -m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \
    --threads 16 \
    -c 262144 -fa on -np 1 \
    --spec-type mtp --spec-draft-n-max 3 \
    --webui-mcp-proxy \
    --chat-template-kwargs '{"preserve_thinking": true}' \
    --host 0.0.0.0 \
    --port 8090 \
    --jinja

主要なフラグ:

  • GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 — GPU がホストメモリに直接アクセスできるようにし、大きなコンテキストでの CUDA malloc を回避します。
  • --spec-type mtp --spec-draft-n-max 3 — ドラフト深さ 3 のマルチトークン予測推測を有効にします。
  • Qwen3.6-27B-Q8_0.gguf — Q8_0 に量子化された 27B パラメータの Qwen3.6 モデルで、Unsloth の MTP サポートで準備されています。
  • -c 262144 — 256K コンテキストウィンドウ; -fa on でフラッシュアテンションを有効化。
Ad

結果

  • MTP なし (統一メモリのみ): 49 tok/sec
  • MTP + 統一メモリ: 64 tok/sec
  • 向上率: 30% のスループット向上

draft-n-max が 3 の場合、モデルは最大 3 トークン先を推測し、逐次デコードのオーバーヘッドを削減します。統一メモリと組み合わせることで、CPU と GPU RAM 間の高コストな PCIe 転送を回避します。

対象ユーザー

大容量コンテキストのローカル推論を高性能コンシューマー GPU (RTX 5090) と十分なシステム RAM (128GB 以上) で実行する開発者。チャットボット、コードアシスタント、または投機的サンプリングがサポートされるレイテンシ重視の LLM ワークロードに適しています。

📖 ソース全文: r/LocalLLaMA

Ad

👀 See Also

DAUB MCPサーバーは、ClaudeがJSON仕様書を通じてUIを生成・レンダリングできるようにします。
Tools

DAUB MCPサーバーは、ClaudeがJSON仕様書を通じてUIを生成・レンダリングできるようにします。

DAUBは、Claudeが自然言語プロンプトから直接UIインターフェースを生成できるようにするMCPサーバーで、コード生成やコンパイルなしにライブインターフェースとしてレンダリングされる構造化JSON仕様を生成します。generate_ui、render_spec、validate_spec、get_component_catalogの4つのツールを公開しています。

OpenClawRadar
OctoArch v5.0:JSONベースのAIペルソナを備えたゼロトラストB2Bランタイム
Tools

OctoArch v5.0:JSONベースのAIペルソナを備えたゼロトラストB2Bランタイム

OctoArch v5.0は、財務/請求書抽出などの厳格な企業ユースケース向けに構築されたゼロトラストB2B認知ランタイムです。テキストベースのプロンプティングをJSON定義のAIペルソナに置き換え、サーバー攻撃を防ぐためのパス監禁を実装しています。

OpenClawRadar
ClaudeOrb:Claude APIの使用状況をリアルタイムで監視するChrome拡張機能
Tools

ClaudeOrb:Claude APIの使用状況をリアルタイムで監視するChrome拡張機能

開発者がClaudeOrbという無料のChrome拡張機能を作成しました。これはClaudeのセッション使用率、週間制限、カウントダウンタイマー、Claude Codeのコスト、7日間の支出傾向を表示します。このツールは、警告なしにレート制限に達した後、Claude Codeを使用して作成されました。

OpenClawRadar
開発者が108のツールを備えたPower Automate MCPサーバーを構築、クロスプラットフォーム対応
Tools

開発者が108のツールを備えたPower Automate MCPサーバーを構築、クロスプラットフォーム対応

ある開発者が、ベンダー提供のソリューションを断り、カスタムのPower Automate MCPサーバーを構築し、ツールを12から108に拡張しました。これにより、ODataを介したDataverseのCRUD操作、Graphを介したSharePoint管理、Power Appsのバージョン管理と権限設定、環境管理(作成、コピー、バックアップ、復元)、そしてWindows、macOS、Linuxのクロスプラットフォームサポートをカバーするようになりました。

OpenClawRadar