Qwen3.6 27B FP8: 200k Tokens a 80 TPS em RTX 5000 PRO 48GB

Um usuário do Reddit no r/LocalLLaMA relata a execução do Qwen3.6-27B-FP8 com um cache KV BF16 de 200k tokens a 60–90 TPS em uma única GPU RTX 5000 PRO 48GB. A configuração usa vLLM 0.20.1, CUDA 12.9 e a quantização FP8 oficial da Qwen, preservando multimodalidade e decodificação especulativa MTP.

Detalhes da Configuração

O ambiente usa FlashInfer FP8 MoE, FP8 Marlin e agendamento assíncrono. Principais variáveis de ambiente e comando de inicialização:

export VLLM_USE_FLASHINFER_MOE_FP8=1 export VLLM_TEST_FORCE_FP8_MARLIN=1 export VLLM_SLEEP_WHEN_IDLE=1 export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1 export VLLM_LOG_STATS_INTERVAL=2 export VLLM_WORKER_MULTIPROC_METHOD=spawn export SAFETENSORS_FAST_GPU=1 export CUDA_DEVICE_ORDER=PCI_BUS_ID export TORCH_FLOAT32_MATMUL_PRECISION=high export PYTORCH_ALLOC_CONF=expandable_segments:True

vllm serve Qwen/Qwen3.6-27B-FP8 --host 0.0.0.0 --port 8080 --performance-mode interactivity --trust-remote-code --enable-auto-tool-choice --tool-call-parser qwen3_coder --reasoning-parser qwen3 --mm-encoder-tp-mode data --mm-processor-cache-type shm --gpu-memory-utilization 0.975 --speculative-config '{"method":"mtp","num_speculative_tokens":2}' --compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}' --async-scheduling --attention-backend flashinfer --max-model-len 196608 --kv-cache-dtype bfloat16 --enable-prefix-caching

Observações de Desempenho

Com decodificação especulativa MTP=2, o sistema produz 60–90 TPS durante geração de código. O cache KV BF16 evita problemas de compactação vistos em KV quantizados, tornando sessões longas de codificação mais confiáveis. O usuário observa que a configuração roda em uma única RTX 5000 PRO 48GB com 64GB de RAM de sistema e uma CPU decente, chamando-a de um forte candidato para uma estação de trabalho de $10k para desenvolvimento local de LLM.

Para Quem é

Desenvolvedores que precisam de uma configuração local de codificação agêntica com baixa compactação e janelas de contexto longas, e mínimos artefatos de quantização.

📖 Leia a fonte original: r/LocalLLaMA

Qwen3.6 27B FP8 roda 200k tokens BF16 KV Cache a 80 TPS em RTX 5000 PRO 48GB

Detalhes da Configuração

Observações de Desempenho

Para Quem é

👀 See Also

Claude Code v2.1.201 remove o papel de sistema no meio da conversa para sessões do Sonnet 5

Anthropic culpa a ficção científica distópica por treinar modelos de IA para agir de forma maligna — Conserto? Mais ficção científica

OpenClaw v2026.6.11: Correções para Respostas Mal Posicionadas, Envios Travados e Falhas de Modelo

Crise existencial do Claude Code: IA entra em loop infinito, tenta kill -9, System.exit(0) e :wq para encerrar própria resposta