llama.cpp ブランチ経由のV100 32GB上のQwen 3.6 27B MTP:54 t/s

✍️ OpenClawRadar📅 公開日: May 6, 2026🔗 Source
llama.cpp ブランチ経由のV100 32GB上のQwen 3.6 27B MTP:54 t/s
Ad

r/LocalLLaMAのユーザーが、PCIeアダプタを使用したV100 32GB SXMモジュール上で、マルチトークン予測(MTP)を用いてQwen 3.6 27Bを実行した印象的な結果を報告している。このセットアップはam17anのMTPブランチのllama.cppと対応するMTP GGUF量子化を使用している。主な仕様:Q8_0 KVキャッシュ、200kキャッシュ制限、llama-server経由でVS Code Copilotバックエンドとして実行。

パフォーマンス数値

  • MTPなし:29-30トークン/秒
  • MTPあり:54-55トークン/秒(150W電力制限時)
  • 50kトークンコンテキスト後:40-45 t/sに低下

ブランチ:am17anのMTPフォーク。ビルドと実行は簡単で、「一発でプルしてビルド」でき、llama-serverは問題なく動作した。このセットアップはツールコールやサブエージェントをうまく処理し、VRAMの制限(32GB)にもかかわらず「非常に洞察に富んだコードレビューとリファクタリング」を提供した。

これは特にV100のような古いデータセンターハードウェアでLLMを実行する開発者にとって重要である。MTPはこのモデルのスループットを実質的に2倍にし、コーディングアシスタントワークロードに実用的な利点を示している。

📖 全文を読む: r/LocalLLaMA

Ad

👀 See Also

クラウドリティクス:Claudeコードのトークン使用量とコストを追跡するセルフホスト型ダッシュボード
Tools

クラウドリティクス:Claudeコードのトークン使用量とコストを追跡するセルフホスト型ダッシュボード

Claudlyticsは、Claude Codeのローカル.jsonlセッションファイルを読み取り、トークン使用量とコストのリアルタイム追跡を提供するNode.jsウェブサーバーです。127.0.0.1でローカルに実行され、リモートサーバーにはSSHトンネル経由でアクセスできます。

OpenClawRadar
エージェント指向UIのためのストリーミング実行プロトコルとしてのMarkdown
Tools

エージェント指向UIのためのストリーミング実行プロトコルとしてのMarkdown

プロトタイプは、AIエージェントが単一のレスポンスでテキスト、実行可能なコード、データをストリーミングするための統一プロトコルとしてMarkdownを使用します。コードが到着するにつれて文単位で実行されるストリーミング実行と、クライアント、サーバー、LLM間のデータフローを持つReact UIを作成するためのmount()プリミティブを特徴としています。

OpenClawRadar
Void-Boxを使用して隔離されたマイクロVMでOpenClawを実行する
Tools

Void-Boxを使用して隔離されたマイクロVMでOpenClawを実行する

OpenClawは、Void-Box(KVMマイクロVM内でワークフローを実行する機能制限付きランタイム)を使用して、分離されたマイクロVM内でサービスとして実行でき、コンテナランタイムを介さずにクリーンな実行境界を提供します。

OpenClawRadar
Tacit: Claude CodeとOpus 4.7で構築されたLLMファーストのプログラミング言語
Tools

Tacit: Claude CodeとOpus 4.7で構築されたLLMファーストのプログラミング言語

Tacitは、Claude CodeとOpus 4.7を用いて設計・実装された、実験的なLLMファーストのプログラミング言語です。人間のための便利機能を排除してトークン使用量を最小化し、中級以上のLLM(Sonnet以上)にTacitコードの書き方を教えるプライマーを同梱しています。

OpenClawRadar