RTX 5000 Pro 48GBでQwen3.6-27Bを4400 tok/sで実行

ある開発者は、Mac Studioに対してRTX 5000 Pro 48GB（税込み4300ドル）に賭けた——その数字はその賭けを正当化する：Qwen3.6-27B-FP8とフルプレシジョンBF16 KVキャッシュを使用した場合、プロンプト処理（PP）で最大4400トークン/秒、テキスト生成（TG）で50～80トークン/秒を達成。

ハードウェアとコストの内訳

GPUコスト：4300ドル（税込み）
総構築費：5600ドル（64GB RAM搭載）
コンテキスト制限：フルプレシジョン（BF16 KVキャッシュ）で200Kトークン

パフォーマンスベンチマーク

プロンプト処理：4400トークン/秒
テキスト生成：非常に大きなプロンプトで50～60トークン/秒、小さいものでは最大80トークン/秒
モデル：フルプレシジョンキャッシュのQwen3.6-27B-FP8
消費電力：デュアルRTX 5090セットアップの約半分

主な所見

このユーザーは、未経験からPCを自作し、Claude Code（週間Claude Code Max制限の50%をvLLM/Linuxセットアップに消費）に依存した。Qwen3.6-27B-FP8とBF16キャッシュの正確なvLLM設定を詳細に記したRedditの投稿が主な参考資料となった。著者は、2台のRTX 5090の方が性能は優れるが、コスト、騒音、消費電力が大幅に高くなると指摘している。

📖 全文ソース： r/LocalLLaMA

RTX 5000 PRO 48GB、Qwen3.6-27Bに対し4400トークン/秒の高精度キャッシングを実現

ハードウェアとコストの内訳

パフォーマンスベンチマーク

主な所見

👀 See Also

Anthropic API課金バグ：ソネットモデルがオーパス料金で請求される問題

ジョージア州の裁判所命令にAIが生成した虚偽の法律引用が含まれる

OpenClawの初期ユーザーレポート：Telegramの問題、エージェントプロファイルのハードコーディング、セッションリセットに関する問題

AIインフラに潜む金融バブル – 重要なポイント