Qwen 3.6 27Bで52.8 tps：AMD MI50 8枚のベンチマーク結果

Redditユーザーが、カスタムvllmフォークを使用して8枚のAMD MI50（2018年製GPU）上でQwen3.6-27B（フル精度、量子化なし）を実行したベンチマーク結果を公開しました。システムはTP8、MTPなし、大規模プロンプトを遅くする可能性のあるフラッシュアテンション最適化なしで、テキスト生成で52.8トークン/秒（tps）、プロンプト処理で1569 tpsを達成しています。

主な詳細

ハードウェア: 8x AMD MI50、PCIe（PCIeスイッチは未使用）
エンジン: vllmフォーク v0.20.1、ROCm 7.2.1搭載 – github.com/ai-infos/vllm-gfx906-mobydick
モデル: Qwen/Qwen3.6-27B（HuggingFace フル精度FP16）
量子化: なし – フルFP16精度
MTP: 無効（大規模プロンプトでは低速）
フラッシュアテンション: 未使用（tritonベースのAMDフラッシュアテンションも大きなプロンプトでは低速）
プロンプト: 1Kおよび15Kトークンプロンプトでの単一推論（ベンチマークでは10K入力、1K出力を使用）

ベンチマーク結果

Successful requests: 4
Total input tokens: 40000
Total generated tokens: 4000
Output token throughput (tok/s): 32.91
Peak output token throughput (tok/s): 56.00
Total token throughput (tok/s): 362.03
Mean TTFT (ms): 32874.56
Mean TPOT (ms): 88.66
Mean ITL (ms): 88.66

注：ユーザーは15Kプロンプトでの単一推論で52.8 tps TGを報告しています。ベンチマークは10K入力の4リクエストの集計結果を示しています。TP2では、モデルは収まり、約34 tps TGで動作します。

セットアップコマンド（Docker + vllm serve）

docker run -it --name vllm-gfx906-mobydick \
  -v /llm:/llm --network host \
  --device=/dev/kfd --device=/dev/dri \
  --group-add video --group-add $(getent group render | cut -d: -f3) \
  --ipc=host \
  aiinfos/vllm-gfx906-mobydick:v0.20.1rc0.x-rocm7.2.1-pytorch2.11.0 \
  FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm serve \
  /llm/models/Qwen3.6-27B \
  --served-model-name Qwen3.6-27B \
  --dtype float16 \
  --max-model-len auto \
  --max-num-batched-tokens 8192 \
  --block-size 64 \
  --gpu-memory-utilization 0.98 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser qwen3 \
  --mm-processor-cache-gb 1 \
  --limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 \
  --skip-mm-profiling \
  --default-chat-template-kwargs '{"min_p": 0.0, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \
  --tensor-parallel-size 8 \
  --host 0.0.0.0 --port 8000 2>&1 | tee log.txt