Qwen 3.6 27B a 52,8 tps TG em AMD MI50s: Precisão Total, Sem MTP, Sem Quantização

✍️ OpenClawRadar📅 Publicado: May 14, 2026🔗 Source
Qwen 3.6 27B a 52,8 tps TG em AMD MI50s: Precisão Total, Sem MTP, Sem Quantização
Ad

Um usuário do Reddit publicou resultados de benchmark para executar o Qwen3.6-27B (precisão total, sem quantização) em oito AMD MI50s (GPUs de 2018) usando um fork personalizado do vllm. O sistema alcança 52,8 tokens por segundo (tps) para geração de texto e 1569 tps para processamento de prompt com TP8, sem MTP e sem otimizações de flash attention que possam desacelerar prompts grandes.

Detalhes Principais

  • Hardware: 8x AMD MI50s, PCIe (sem switch PCIe ainda)
  • Engine: fork do vllm v0.20.1 com ROCm 7.2.1 – github.com/ai-infos/vllm-gfx906-mobydick
  • Modelo: Qwen/Qwen3.6-27B (HuggingFace precisão total FP16)
  • Quantização: Nenhuma – precisão total FP16
  • MTP: Desabilitado (mais lento para prompts grandes)
  • Flash attention: Não utilizado (flash attention AMD baseado em triton também mais lento para prompts grandes)
  • Prompt: Inferência única com prompts de 1K e 15K tokens (bench usou 10K entrada, 1K saída)

Resultados do Benchmark

Requisições bem-sucedidas: 4
Total de tokens de entrada: 40000
Total de tokens gerados: 4000
Throughput de tokens de saída (tok/s): 32,91
Pico de throughput de tokens de saída (tok/s): 56,00
Throughput total de tokens (tok/s): 362,03
TTFT médio (ms): 32874,56
TPOT médio (ms): 88,66
ITL médio (ms): 88,66

Nota: O usuário relata 52,8 tps TG para inferência única com prompt de 15K; o benchmark mostra resultados agregados em 4 requisições com 10K de entrada cada. Com TP2, o modelo também cabe e roda a ~34 tps TG.

Ad

Comandos de Configuração (Docker + vllm serve)

docker run -it --name vllm-gfx906-mobydick \
  -v /llm:/llm --network host \
  --device=/dev/kfd --device=/dev/dri \
  --group-add video --group-add $(getent group render | cut -d: -f3) \
  --ipc=host \
  aiinfos/vllm-gfx906-mobydick:v0.20.1rc0.x-rocm7.2.1-pytorch2.11.0 \
  FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm serve \
  /llm/models/Qwen3.6-27B \
  --served-model-name Qwen3.6-27B \
  --dtype float16 \
  --max-model-len auto \
  --max-num-batched-tokens 8192 \
  --block-size 64 \
  --gpu-memory-utilization 0,98 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser qwen3 \
  --mm-processor-cache-gb 1 \
  --limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 \
  --skip-mm-profiling \
  --default-chat-template-kwargs '{"min_p": 0.0, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \
  --tensor-parallel-size 8 \
  --host 0.0.0.0 --port 8000 2>&1 | tee log.txt

Para Quem é

Desenvolvedores executando ferramentas de codificação agênticas (ex.: Claude Code, Hermes) em hardware AMD, especialmente com prompts grandes e requisitos de precisão total.

O usuário observa que melhorias adicionais são possíveis com switches PCIe (latência menor), flash attention/MTP mais otimizados para ROCm/gfx906 e stacks de software atualizados.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Mulher do Tennessee Presa por Seis Meses Devido a Erro de Reconhecimento Facial por IA
News

Mulher do Tennessee Presa por Seis Meses Devido a Erro de Reconhecimento Facial por IA

Angela Lipps, uma avó de 50 anos do Tennessee, passou quase seis meses na prisão depois que a polícia de Fargo usou um software de reconhecimento facial para identificá-la incorretamente como suspeita em um caso de fraude bancária na Dakota do Norte. Ela foi libertada na véspera de Natal, após registros bancários provarem que ela estava a 1.200 milhas de distância no momento dos crimes.

OpenClawRadar
Custos da API OpenClaw Chegam a US$ 275 em 5,5 Horas, Projetando Mais de US$ 200K Anuais
News

Custos da API OpenClaw Chegam a US$ 275 em 5,5 Horas, Projetando Mais de US$ 200K Anuais

Um desenvolvedor testando o OpenClaw com a API GPT-5.4 da OpenAI gastou US$ 275 entre 11h e 16h30, o que, anualizado, representa mais de US$ 200.000 por ano nessa taxa de uso.

OpenClawRadar
Claude Code v2.1.133: reversão de worktree.baseRef, caminhos de sandbox, correção de proxy para MCP OAuth
News

Claude Code v2.1.133: reversão de worktree.baseRef, caminhos de sandbox, correção de proxy para MCP OAuth

Anthropic lança a versão v2.1.133 do Claude Code CLI com uma nova configuração worktree.baseRef padrão para fresh (ramo a partir de origin/default), sandbox.bwrapPath e sandbox.socatPath para binários customizados de bubblewrap/socat, correção de proxy/mTLS para o fluxo OAuth do MCP e várias correções de bugs.

OpenClawRadar
Análise do Claude Opus 4.7: Inteligência de Topo, mas Custo Elevado e Verbosidade
News

Análise do Claude Opus 4.7: Inteligência de Topo, mas Custo Elevado e Verbosidade

Claude Opus 4.7 (Raciocínio Adaptativo, Máximo Esforço) ocupa a 1ª posição em inteligência entre 133 modelos com uma pontuação de 57 no Índice de Inteligência da Artificial Analysis, mas custa US$ 5 por 1 milhão de tokens de entrada e US$ 25 por 1 milhão de tokens de saída, tornando-o significativamente mais caro que a média.

OpenClawRadar