Qwen 3.6 27B a 52,8 tps TG em AMD MI50s: Precisão Total, Sem MTP, Sem Quantização

Um usuário do Reddit publicou resultados de benchmark para executar o Qwen3.6-27B (precisão total, sem quantização) em oito AMD MI50s (GPUs de 2018) usando um fork personalizado do vllm. O sistema alcança 52,8 tokens por segundo (tps) para geração de texto e 1569 tps para processamento de prompt com TP8, sem MTP e sem otimizações de flash attention que possam desacelerar prompts grandes.
Detalhes Principais
- Hardware: 8x AMD MI50s, PCIe (sem switch PCIe ainda)
- Engine: fork do vllm v0.20.1 com ROCm 7.2.1 – github.com/ai-infos/vllm-gfx906-mobydick
- Modelo:
Qwen/Qwen3.6-27B(HuggingFace precisão total FP16) - Quantização: Nenhuma – precisão total FP16
- MTP: Desabilitado (mais lento para prompts grandes)
- Flash attention: Não utilizado (flash attention AMD baseado em triton também mais lento para prompts grandes)
- Prompt: Inferência única com prompts de 1K e 15K tokens (bench usou 10K entrada, 1K saída)
Resultados do Benchmark
Requisições bem-sucedidas: 4 Total de tokens de entrada: 40000 Total de tokens gerados: 4000 Throughput de tokens de saída (tok/s): 32,91 Pico de throughput de tokens de saída (tok/s): 56,00 Throughput total de tokens (tok/s): 362,03 TTFT médio (ms): 32874,56 TPOT médio (ms): 88,66 ITL médio (ms): 88,66
Nota: O usuário relata 52,8 tps TG para inferência única com prompt de 15K; o benchmark mostra resultados agregados em 4 requisições com 10K de entrada cada. Com TP2, o modelo também cabe e roda a ~34 tps TG.
Comandos de Configuração (Docker + vllm serve)
docker run -it --name vllm-gfx906-mobydick \
-v /llm:/llm --network host \
--device=/dev/kfd --device=/dev/dri \
--group-add video --group-add $(getent group render | cut -d: -f3) \
--ipc=host \
aiinfos/vllm-gfx906-mobydick:v0.20.1rc0.x-rocm7.2.1-pytorch2.11.0 \
FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm serve \
/llm/models/Qwen3.6-27B \
--served-model-name Qwen3.6-27B \
--dtype float16 \
--max-model-len auto \
--max-num-batched-tokens 8192 \
--block-size 64 \
--gpu-memory-utilization 0,98 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser qwen3 \
--mm-processor-cache-gb 1 \
--limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 \
--skip-mm-profiling \
--default-chat-template-kwargs '{"min_p": 0.0, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \
--tensor-parallel-size 8 \
--host 0.0.0.0 --port 8000 2>&1 | tee log.txt
Para Quem é
Desenvolvedores executando ferramentas de codificação agênticas (ex.: Claude Code, Hermes) em hardware AMD, especialmente com prompts grandes e requisitos de precisão total.
O usuário observa que melhorias adicionais são possíveis com switches PCIe (latência menor), flash attention/MTP mais otimizados para ROCm/gfx906 e stacks de software atualizados.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Mulher do Tennessee Presa por Seis Meses Devido a Erro de Reconhecimento Facial por IA
Angela Lipps, uma avó de 50 anos do Tennessee, passou quase seis meses na prisão depois que a polícia de Fargo usou um software de reconhecimento facial para identificá-la incorretamente como suspeita em um caso de fraude bancária na Dakota do Norte. Ela foi libertada na véspera de Natal, após registros bancários provarem que ela estava a 1.200 milhas de distância no momento dos crimes.

Custos da API OpenClaw Chegam a US$ 275 em 5,5 Horas, Projetando Mais de US$ 200K Anuais
Um desenvolvedor testando o OpenClaw com a API GPT-5.4 da OpenAI gastou US$ 275 entre 11h e 16h30, o que, anualizado, representa mais de US$ 200.000 por ano nessa taxa de uso.

Claude Code v2.1.133: reversão de worktree.baseRef, caminhos de sandbox, correção de proxy para MCP OAuth
Anthropic lança a versão v2.1.133 do Claude Code CLI com uma nova configuração worktree.baseRef padrão para fresh (ramo a partir de origin/default), sandbox.bwrapPath e sandbox.socatPath para binários customizados de bubblewrap/socat, correção de proxy/mTLS para o fluxo OAuth do MCP e várias correções de bugs.

Análise do Claude Opus 4.7: Inteligência de Topo, mas Custo Elevado e Verbosidade
Claude Opus 4.7 (Raciocínio Adaptativo, Máximo Esforço) ocupa a 1ª posição em inteligência entre 133 modelos com uma pontuação de 57 no Índice de Inteligência da Artificial Analysis, mas custa US$ 5 por 1 milhão de tokens de entrada e US$ 25 por 1 milhão de tokens de saída, tornando-o significativamente mais caro que a média.