llama.cpp上Qwen 3.6 27B通过MTP投机解码实现2.5倍速度提升

Redditユーザーが、保留中のPR (#22673) を組み込んだllama.cppをコンパイルし、Qwen 3.6 27Bでマルチトークン予測を有効にしました。MTPはモデル内蔵のテンソル層を投機的復号に使用し、Mac M2 Max 96GB上で約11 tok/sから28 tok/sへの2.5倍の高速化を実現したと主張しています。
主な詳細
- モデル: Qwen 3.6 27B (Qwen2.5-3.0アーキテクチャ派生)
- テストハードウェア: Mac M2 Max 96GB
- 結果: MTP使用時28 tok/s (未使用時約11 tok/s)
- コンテキストサポート: 48GB Mac上でturbo4 KVキャッシュにより最大262Kトークン
- 量子化: ユーザーが
froggeric/Qwen3.6-27B-MTP-GGUFにプリコンバート済みGGUF量子化をアップロード
コンパイル手順
git clone --depth 1 https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin pull/22673/head:mtp-pr && git checkout mtp-pr
cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --target llama-cli llama-serverサーバーコマンド
llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
--mmproj mmproj-Qwen3.6-27B-f16.gguf \
--spec-type mtp --spec-draft-n-max 5 \
--cache-type-k turbo4 --cache-type-v turbo4 \
-c 262144 --temp 0.7 --top-k 20 -ngl 99 --port 80813つの最適化を組み合わせ:
--spec-type mtp --spec-draft-n-max 5: MTP投機的復号を有効化 (2.5倍高速)--cache-type-k turbo4 --cache-type-v turbo4: 4.25ビットKVキャッシュ (16ビットと比較してメモリ1/4)-c 262144: 262Kコンテキストウィンドウ (turbo4で48GBに収まる)
ハードウェア推奨
Apple SiliconおよびNVIDIA GPUの量子化/KVキャッシュテーブルが、メモリ制限のある環境(例:16GB Apple Silicon上のIQ2_M、48Kコンテキスト)向けにソースで提供されています。ビジョンサポートは32GB以上の構成で利用可能です。
追加修正
ユーザーはまた、vLLM特有の書式により壊れていたQwen jinjaチャットテンプレートの7つの修正を公開しました。これらはllama.cppや他のツールと互換性があります。
注: Hugging Face上の既存GGUFファイルにはMTPサポートが含まれていません — PRを適用して再変換が必要です。ユーザーは最初のアップロードは不完全であると警告しています。Hugging Faceリポジトリのステータスを確認してください。
📖 全ソースを読む: r/LocalLLaMA
👀 See Also

Vibeyard、複数のClaude Codeセッションを管理するカンバンボードを追加
VibeyardというオープンソースIDEに、カンバンボードが追加されました。カードから直接Claude Codeのエージェントセッションを起動でき、エージェントが完了するとカードは自動的に「Done」に移動します。

Next.js開発のための並列Claudeチャットアーキテクチャ
開発者が、共有データベーステーブルとポーリングエージェントを使用して、同じNext.jsコードベース上で複数のClaude AIチャットを同時に実行するシステムを作成し、1セッションで87%のビルド成功率とゼロのマージコンフリクトを達成しました。

クラウメイツ:OpenClawのチーム向けバージョン
新プロジェクトにより、チーム全体でのOpenClawのマルチユーザー展開が可能になり、知識の共有、コストの可視化、管理制御が実現します。

オープンソースのClaudeプラグインが、ライブプレビュー付きのインタラクティブなビジュアルチューナーを生成します
開発者が、Claude CodeでCSS値を微調整するためのスライダーとFigmaスタイルの無限キャンバスを備えた単一HTMLページを生成するオープンソースプラグインを構築しました。このプラグインはソースファイルを読み取り、インタラクティブなキャンバス上で要素を再現し、ライブプレビュー付きで精密な調整を行うコントロールを提供します。