Qwen 3.6 27B: AMD MI50에서 52.8 tps TG, 전체 정밀도, MTP 없음, 양자화 없음

Reddit 사용자가 8개의 AMD MI50(2018년 GPU)에서 커스텀 vllm 포크를 사용하여 Qwen3.6-27B(전체 정밀도, 양자화 없음)를 실행한 벤치마크 결과를 게시했습니다. 이 시스템은 TP8, MTP 없음, 큰 프롬프트를 느리게 할 수 있는 플래시 어텐션 최적화 없이 텍스트 생성 시 초당 52.8 토큰(tps), 프롬프트 처리 시 초당 1569 tps를 달성합니다.
주요 세부 사항
- 하드웨어: 8x AMD MI50, PCIe(아직 PCIe 스위치 미사용)
- 엔진: ROCm 7.2.1이 포함된 vllm 포크 v0.20.1 – github.com/ai-infos/vllm-gfx906-mobydick
- 모델:
Qwen/Qwen3.6-27B(HuggingFace 전체 정밀도 FP16) - 양자화: 없음 – 전체 FP16 정밀도
- MTP: 비활성화(큰 프롬프트에서 더 느림)
- 플래시 어텐션: 사용 안 함(triton 기반 AMD 플래시 어텐션도 큰 프롬프트에서 느림)
- 프롬프트: 1K 및 15K 토큰 프롬프트로 단일 추론(벤치마크는 10K 입력, 1K 출력 사용)
벤치마크 결과
성공적인 요청: 4 총 입력 토큰: 40000 총 생성 토큰: 4000 출력 토큰 처리량(tok/s): 32.91 최대 출력 토큰 처리량(tok/s): 56.00 총 토큰 처리량(tok/s): 362.03 평균 TTFT(ms): 32874.56 평균 TPOT(ms): 88.66 평균 ITL(ms): 88.66
참고: 사용자는 15K 프롬프트의 단일 추론에서 52.8 tps TG를 보고합니다. 벤치마크는 각각 10K 입력의 4개 요청에 대한 집계 결과를 보여줍니다. TP2를 사용하면 모델도 맞고 약 34 tps TG로 실행됩니다.
설정 명령어(Docker + vllm serve)
docker run -it --name vllm-gfx906-mobydick \
-v /llm:/llm --network host \
--device=/dev/kfd --device=/dev/dri \
--group-add video --group-add $(getent group render | cut -d: -f3) \
--ipc=host \
aiinfos/vllm-gfx906-mobydick:v0.20.1rc0.x-rocm7.2.1-pytorch2.11.0 \
FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm serve \
/llm/models/Qwen3.6-27B \
--served-model-name Qwen3.6-27B \
--dtype float16 \
--max-model-len auto \
--max-num-batched-tokens 8192 \
--block-size 64 \
--gpu-memory-utilization 0.98 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser qwen3 \
--mm-processor-cache-gb 1 \
--limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 \
--skip-mm-profiling \
--default-chat-template-kwargs '{"min_p": 0.0, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \
--tensor-parallel-size 8 \
--host 0.0.0.0 --port 8000 2>&1 | tee log.txt
대상 사용자
AMD 하드웨어에서 에이전트 코딩 도구(예: Claude Code, Hermes)를 실행하는 개발자, 특히 큰 프롬프트와 전체 정밀도를 요구하는 경우.
사용자는 PCIe 스위치(지연 시간 감소), ROCm/gfx906에 최적화된 플래시 어텐션/MTP, 업데이트된 소프트웨어 스택을 통해 추가 개선이 가능하다고 언급합니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

팔란티어의 AI 플랫폼, 미국 주도 조정 센터에서 가자지구 원조 추적에 활용
Palantir Technologies는 이스라엘 남부에 위치한 미국 주도의 민군 조정 센터에 상주 책상을 두고 있으며, 드론 감시와 데이터 통합을 통해 가자 지구로의 구호 물자 전달 및 배분을 추적하는 기술 아키텍처를 제공하고 있습니다.

트레이딩 전략 벤치마크: 저렴한 AI 모델이 Claude Opus 4.6을 능가하다
벤치마크 테스트에서 10개의 대규모 언어 모델을 거래 전략 개발 능력으로 평가했으며, Minimax 2.5와 Gemini 3.1 같은 저렴한 모델들이 10배 더 비싼 Claude Opus 4.6을 앞섰습니다. 실험은 세 번 반복되어 일관된 결과를 보였습니다.

메드비의 18억 달러 AI 기업, 법적·윤리적 문제로 주장에 대한 검증 요구받아
게리 마커스는 한 사람이 두 달 만에 1,800억 달러 규모의 AI 기업을 세웠다는 메드비의 화제성 스토리를 비판하며, 스팸 위반으로 인한 집단 소송과 수익 보고 및 규정 준수에 대한 의문점을 강조합니다.

우버의 AI 개발, 34억 달러 투자에도 예산 제약 직면
Uber의 AI 이니셔티브는 CTO에 따르면 예산 제한에 직면하고 있으며, 회사가 이러한 노력에 34억 달러를 투자했음에도 불구하고 그렇습니다. 이 기사는 재정적 제약 내에서 AI 개발을 확장하는 데 따른 어려움을 논의합니다.