RTX 5000 PRO 48GB、Qwen3.6-27Bに対し4400トークン/秒の高精度キャッシングを実現

ある開発者は、Mac Studioに対してRTX 5000 Pro 48GB(税込み4300ドル)に賭けた——その数字はその賭けを正当化する:Qwen3.6-27B-FP8とフルプレシジョンBF16 KVキャッシュを使用した場合、プロンプト処理(PP)で最大4400トークン/秒、テキスト生成(TG)で50~80トークン/秒を達成。
ハードウェアとコストの内訳
- GPUコスト:4300ドル(税込み)
- 総構築費:5600ドル(64GB RAM搭載)
- コンテキスト制限:フルプレシジョン(BF16 KVキャッシュ)で200Kトークン
パフォーマンスベンチマーク
- プロンプト処理:4400トークン/秒
- テキスト生成:非常に大きなプロンプトで50~60トークン/秒、小さいものでは最大80トークン/秒
- モデル:フルプレシジョンキャッシュのQwen3.6-27B-FP8
- 消費電力:デュアルRTX 5090セットアップの約半分
主な所見
このユーザーは、未経験からPCを自作し、Claude Code(週間Claude Code Max制限の50%をvLLM/Linuxセットアップに消費)に依存した。Qwen3.6-27B-FP8とBF16キャッシュの正確なvLLM設定を詳細に記したRedditの投稿が主な参考資料となった。著者は、2台のRTX 5090の方が性能は優れるが、コスト、騒音、消費電力が大幅に高くなると指摘している。
📖 全文ソース: r/LocalLLaMA
👀 See Also

AIは高すぎる:ハイパースケーラーが損益分岐点に達するには3兆ドルが必要
ハイパースケーラーはAIに8000億ドル以上の資本的支出を行い、2027年までにさらに1兆ドルを計画している。マイクロソフトだけでもOpenAIのインフラに約1000億ドルを費やしたが、AI収益は資本的支出の約20%しかカバーしていない。

2026年 LLM API コスト比較:セルフホスティング vs クラウドプロバイダー
Redditユーザーが11のプロバイダーにおける1日100万トークンのLLM APIコストを比較し、vLLMによるセルフホスティングが100万トークンあたり約0.05ドルであるのに対し、GPT-4oは入力/出力トークンで5ドル/15ドルかかることが明らかになりました。

YC-BenchがLLMをスタートアップCEOとして評価、GLM-5は高いコスト効率を発揮
研究者たちはYC-Benchというベンチマークを作成しました。これは、LLMがシミュレートされたスタートアップのCEO役を1年間務め、従業員、契約、給与を管理するものです。GLM-5は1回の実行あたり7.62ドルで平均最終資金121万ドルを達成し、1回あたり86ドルかかるClaude Opus 4.6の5%以内の性能を示しました。

Claude Code v2.1.129: プラグインURLフラグ、強制同期出力、20以上の修正
--plugin-urlフラグを追加してプラグインZipをURLから読み込み、Emacs eat向けのCLAUDE_CODE_FORCE_SYNC_OUTPUTを追加し、/contextのトークン浪費、キャッシュTTL低下、OAuth競合を修正。