Qwen 3.6 27B: AMD MI50 8카드 52.8 tps TG 벤치마크

Reddit 사용자가 8개의 AMD MI50(2018년 GPU)에서 커스텀 vllm 포크를 사용하여 Qwen3.6-27B(전체 정밀도, 양자화 없음)를 실행한 벤치마크 결과를 게시했습니다. 이 시스템은 TP8, MTP 없음, 큰 프롬프트를 느리게 할 수 있는 플래시 어텐션 최적화 없이 텍스트 생성 시 초당 52.8 토큰(tps), 프롬프트 처리 시 초당 1569 tps를 달성합니다.

주요 세부 사항

하드웨어: 8x AMD MI50, PCIe(아직 PCIe 스위치 미사용)
엔진: ROCm 7.2.1이 포함된 vllm 포크 v0.20.1 – github.com/ai-infos/vllm-gfx906-mobydick
모델: Qwen/Qwen3.6-27B(HuggingFace 전체 정밀도 FP16)
양자화: 없음 – 전체 FP16 정밀도
MTP: 비활성화(큰 프롬프트에서 더 느림)
플래시 어텐션: 사용 안 함(triton 기반 AMD 플래시 어텐션도 큰 프롬프트에서 느림)
프롬프트: 1K 및 15K 토큰 프롬프트로 단일 추론(벤치마크는 10K 입력, 1K 출력 사용)

벤치마크 결과

성공적인 요청: 4
총 입력 토큰: 40000
총 생성 토큰: 4000
출력 토큰 처리량(tok/s): 32.91
최대 출력 토큰 처리량(tok/s): 56.00
총 토큰 처리량(tok/s): 362.03
평균 TTFT(ms): 32874.56
평균 TPOT(ms): 88.66
평균 ITL(ms): 88.66

참고: 사용자는 15K 프롬프트의 단일 추론에서 52.8 tps TG를 보고합니다. 벤치마크는 각각 10K 입력의 4개 요청에 대한 집계 결과를 보여줍니다. TP2를 사용하면 모델도 맞고 약 34 tps TG로 실행됩니다.

설정 명령어(Docker + vllm serve)

docker run -it --name vllm-gfx906-mobydick \
  -v /llm:/llm --network host \
  --device=/dev/kfd --device=/dev/dri \
  --group-add video --group-add $(getent group render | cut -d: -f3) \
  --ipc=host \
  aiinfos/vllm-gfx906-mobydick:v0.20.1rc0.x-rocm7.2.1-pytorch2.11.0 \
  FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm serve \
  /llm/models/Qwen3.6-27B \
  --served-model-name Qwen3.6-27B \
  --dtype float16 \
  --max-model-len auto \
  --max-num-batched-tokens 8192 \
  --block-size 64 \
  --gpu-memory-utilization 0.98 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser qwen3 \
  --mm-processor-cache-gb 1 \
  --limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 \
  --skip-mm-profiling \
  --default-chat-template-kwargs '{"min_p": 0.0, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \
  --tensor-parallel-size 8 \
  --host 0.0.0.0 --port 8000 2>&1 | tee log.txt