AMD MI50におけるQwen 3.6 27Bの52.8 tps TG:フルプレシジョン、MTPなし、量子化なし

Redditユーザーが、カスタムvllmフォークを使用して8枚のAMD MI50(2018年製GPU)上でQwen3.6-27B(フル精度、量子化なし)を実行したベンチマーク結果を公開しました。システムはTP8、MTPなし、大規模プロンプトを遅くする可能性のあるフラッシュアテンション最適化なしで、テキスト生成で52.8トークン/秒(tps)、プロンプト処理で1569 tpsを達成しています。
主な詳細
- ハードウェア: 8x AMD MI50、PCIe(PCIeスイッチは未使用)
- エンジン: vllmフォーク v0.20.1、ROCm 7.2.1搭載 – github.com/ai-infos/vllm-gfx906-mobydick
- モデル:
Qwen/Qwen3.6-27B(HuggingFace フル精度FP16) - 量子化: なし – フルFP16精度
- MTP: 無効(大規模プロンプトでは低速)
- フラッシュアテンション: 未使用(tritonベースのAMDフラッシュアテンションも大きなプロンプトでは低速)
- プロンプト: 1Kおよび15Kトークンプロンプトでの単一推論(ベンチマークでは10K入力、1K出力を使用)
ベンチマーク結果
Successful requests: 4 Total input tokens: 40000 Total generated tokens: 4000 Output token throughput (tok/s): 32.91 Peak output token throughput (tok/s): 56.00 Total token throughput (tok/s): 362.03 Mean TTFT (ms): 32874.56 Mean TPOT (ms): 88.66 Mean ITL (ms): 88.66
注:ユーザーは15Kプロンプトでの単一推論で52.8 tps TGを報告しています。ベンチマークは10K入力の4リクエストの集計結果を示しています。TP2では、モデルは収まり、約34 tps TGで動作します。
セットアップコマンド(Docker + vllm serve)
docker run -it --name vllm-gfx906-mobydick \
-v /llm:/llm --network host \
--device=/dev/kfd --device=/dev/dri \
--group-add video --group-add $(getent group render | cut -d: -f3) \
--ipc=host \
aiinfos/vllm-gfx906-mobydick:v0.20.1rc0.x-rocm7.2.1-pytorch2.11.0 \
FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm serve \
/llm/models/Qwen3.6-27B \
--served-model-name Qwen3.6-27B \
--dtype float16 \
--max-model-len auto \
--max-num-batched-tokens 8192 \
--block-size 64 \
--gpu-memory-utilization 0.98 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser qwen3 \
--mm-processor-cache-gb 1 \
--limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 \
--skip-mm-profiling \
--default-chat-template-kwargs '{"min_p": 0.0, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \
--tensor-parallel-size 8 \
--host 0.0.0.0 --port 8000 2>&1 | tee log.txt
対象ユーザー
AMDハードウェア上で、特に大規模プロンプトとフル精度を必要とするエージェント型コーディングツール(例:Claude Code、Hermes)を実行する開発者向けです。
ユーザーは、PCIeスイッチ(レイテンシ低下)、ROCm/gfx906向けのより最適化されたフラッシュアテンション/MTP、および更新されたソフトウェアスタックにより、さらなる改善が可能であると述べています。
📖 全文はこちら: r/LocalLLaMA
👀 See Also

ブルームバーグ、2026年のAIコーディングエージェントと生産性への懸念を報道
2026年2月のブルームバーグの記事は、Claude CodeなどのAIコーディングエージェントについて論じ、テック業界における「生産性パニック」について報告しています。この記事はHacker Newsで44ポイントと14コメントを獲得しました。

Claudeは会話にインラインのインタラクティブなチャートや図表を追加します
Claudeは現在、チャット会話内で直接カスタムチャート、図表、視覚化を作成し、議論が進むにつれてユーザーが視覚化を調整・修正できるようになりました。この機能はすべてのプランタイプでベータ版として利用可能で、サイドパネルではなくインラインで表示されます。

GPT 5.4 タスク完了の問題と回避策
ユーザーから、GPT 5.4がタスクを途中で停止し、誤った進捗報告を行うとの報告があります。回避策としてハートビートシステムやcronジョブの使用が挙げられますが、これらはトークン使用量とメモリの問題を増加させます。

コードが安くなると、理解が高くつく
Markus Poppastring氏は、2000年代のオフショアリングの波と今日のAIコード生成の類似点を指摘する。コストはコードを書くことから理解することへと移り、AIでは意図がどこにも存在しない可能性がある。