Qwen 3.6 27B a 52,8 tps TG em AMD MI50s: Benchmark

Um usuário do Reddit publicou resultados de benchmark para executar o Qwen3.6-27B (precisão total, sem quantização) em oito AMD MI50s (GPUs de 2018) usando um fork personalizado do vllm. O sistema alcança 52,8 tokens por segundo (tps) para geração de texto e 1569 tps para processamento de prompt com TP8, sem MTP e sem otimizações de flash attention que possam desacelerar prompts grandes.

Detalhes Principais

Hardware: 8x AMD MI50s, PCIe (sem switch PCIe ainda)
Engine: fork do vllm v0.20.1 com ROCm 7.2.1 – github.com/ai-infos/vllm-gfx906-mobydick
Modelo: Qwen/Qwen3.6-27B (HuggingFace precisão total FP16)
Quantização: Nenhuma – precisão total FP16
MTP: Desabilitado (mais lento para prompts grandes)
Flash attention: Não utilizado (flash attention AMD baseado em triton também mais lento para prompts grandes)
Prompt: Inferência única com prompts de 1K e 15K tokens (bench usou 10K entrada, 1K saída)

Resultados do Benchmark

Requisições bem-sucedidas: 4
Total de tokens de entrada: 40000
Total de tokens gerados: 4000
Throughput de tokens de saída (tok/s): 32,91
Pico de throughput de tokens de saída (tok/s): 56,00
Throughput total de tokens (tok/s): 362,03
TTFT médio (ms): 32874,56
TPOT médio (ms): 88,66
ITL médio (ms): 88,66

Nota: O usuário relata 52,8 tps TG para inferência única com prompt de 15K; o benchmark mostra resultados agregados em 4 requisições com 10K de entrada cada. Com TP2, o modelo também cabe e roda a ~34 tps TG.

Comandos de Configuração (Docker + vllm serve)

docker run -it --name vllm-gfx906-mobydick \
  -v /llm:/llm --network host \
  --device=/dev/kfd --device=/dev/dri \
  --group-add video --group-add $(getent group render | cut -d: -f3) \
  --ipc=host \
  aiinfos/vllm-gfx906-mobydick:v0.20.1rc0.x-rocm7.2.1-pytorch2.11.0 \
  FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm serve \
  /llm/models/Qwen3.6-27B \
  --served-model-name Qwen3.6-27B \
  --dtype float16 \
  --max-model-len auto \
  --max-num-batched-tokens 8192 \
  --block-size 64 \
  --gpu-memory-utilization 0,98 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser qwen3 \
  --mm-processor-cache-gb 1 \
  --limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 \
  --skip-mm-profiling \
  --default-chat-template-kwargs '{"min_p": 0.0, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \
  --tensor-parallel-size 8 \
  --host 0.0.0.0 --port 8000 2>&1 | tee log.txt

Para Quem é

Desenvolvedores executando ferramentas de codificação agênticas (ex.: Claude Code, Hermes) em hardware AMD, especialmente com prompts grandes e requisitos de precisão total.

O usuário observa que melhorias adicionais são possíveis com switches PCIe (latência menor), flash attention/MTP mais otimizados para ROCm/gfx906 e stacks de software atualizados.

📖 Leia a fonte completa: r/LocalLLaMA

Qwen 3.6 27B a 52,8 tps TG em AMD MI50s: Precisão Total, Sem MTP, Sem Quantização

Detalhes Principais

Resultados do Benchmark

Comandos de Configuração (Docker + vllm serve)

Para Quem é

👀 See Also

Claude Code v2.1.121: alwaysLoad MCP, poda de plugins, correções de rolagem do terminal e correções de vazamento de memória

Claude Opus 4.5 e Sonnet 4.5 removidos da seleção de modelos, requerem flag de inicialização.

Claude-Code v2.1.108 adiciona controles de cache de prompt, recurso de recapitulação e descoberta de comandos de barra.

Cemitério de IA: 100 Ferramentas de IA Desativadas e Adquiridas Rastreadas – 88 Apenas em 2026