Qwen 3.6 27B MTPをllama.cppでV100 32GB上で54 t/s達成

r/LocalLLaMAのユーザーが、PCIeアダプタを使用したV100 32GB SXMモジュール上で、マルチトークン予測（MTP）を用いてQwen 3.6 27Bを実行した印象的な結果を報告している。このセットアップはam17anのMTPブランチのllama.cppと対応するMTP GGUF量子化を使用している。主な仕様：Q8_0 KVキャッシュ、200kキャッシュ制限、llama-server経由でVS Code Copilotバックエンドとして実行。

パフォーマンス数値

MTPなし：29-30トークン/秒
MTPあり：54-55トークン/秒（150W電力制限時）
50kトークンコンテキスト後：40-45 t/sに低下

ブランチ：am17anのMTPフォーク。ビルドと実行は簡単で、「一発でプルしてビルド」でき、llama-serverは問題なく動作した。このセットアップはツールコールやサブエージェントをうまく処理し、VRAMの制限（32GB）にもかかわらず「非常に洞察に富んだコードレビューとリファクタリング」を提供した。

これは特にV100のような古いデータセンターハードウェアでLLMを実行する開発者にとって重要である。MTPはこのモデルのスループットを実質的に2倍にし、コーディングアシスタントワークロードに実用的な利点を示している。

📖 全文を読む: r/LocalLLaMA

llama.cpp ブランチ経由のV100 32GB上のQwen 3.6 27B MTP：54 t/s

パフォーマンス数値

👀 See Also

Visdiff: Claudeのフロントエンドコード生成のための視覚的フィードバックループ

HomeClawプラグインは、Apple HomeKitをOpenClawに接続します。

AIコーディングエージェントのためのクロスモデルレビューループが重大な設計上の欠陥を捕捉

Claude Code MCPスタックの測定：キャッシュ親和性とバイト節約の比較、およびプロンプトキャッシュの2行修正