Qwen3.6 27B FP8 roda 200k tokens BF16 KV Cache a 80 TPS em RTX 5000 PRO 48GB

✍️ OpenClawRadar📅 Publicado: May 5, 2026🔗 Source
Qwen3.6 27B FP8 roda 200k tokens BF16 KV Cache a 80 TPS em RTX 5000 PRO 48GB
Ad

Um usuário do Reddit no r/LocalLLaMA relata a execução do Qwen3.6-27B-FP8 com um cache KV BF16 de 200k tokens a 60–90 TPS em uma única GPU RTX 5000 PRO 48GB. A configuração usa vLLM 0.20.1, CUDA 12.9 e a quantização FP8 oficial da Qwen, preservando multimodalidade e decodificação especulativa MTP.

Detalhes da Configuração

O ambiente usa FlashInfer FP8 MoE, FP8 Marlin e agendamento assíncrono. Principais variáveis de ambiente e comando de inicialização:

export VLLM_USE_FLASHINFER_MOE_FP8=1
export VLLM_TEST_FORCE_FP8_MARLIN=1
export VLLM_SLEEP_WHEN_IDLE=1
export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1
export VLLM_LOG_STATS_INTERVAL=2
export VLLM_WORKER_MULTIPROC_METHOD=spawn
export SAFETENSORS_FAST_GPU=1
export CUDA_DEVICE_ORDER=PCI_BUS_ID
export TORCH_FLOAT32_MATMUL_PRECISION=high
export PYTORCH_ALLOC_CONF=expandable_segments:True

vllm serve Qwen/Qwen3.6-27B-FP8
--host 0.0.0.0 --port 8080
--performance-mode interactivity
--trust-remote-code
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--reasoning-parser qwen3
--mm-encoder-tp-mode data
--mm-processor-cache-type shm
--gpu-memory-utilization 0.975
--speculative-config '{"method":"mtp","num_speculative_tokens":2}'
--compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}'
--async-scheduling
--attention-backend flashinfer
--max-model-len 196608
--kv-cache-dtype bfloat16
--enable-prefix-caching

Ad

Observações de Desempenho

Com decodificação especulativa MTP=2, o sistema produz 60–90 TPS durante geração de código. O cache KV BF16 evita problemas de compactação vistos em KV quantizados, tornando sessões longas de codificação mais confiáveis. O usuário observa que a configuração roda em uma única RTX 5000 PRO 48GB com 64GB de RAM de sistema e uma CPU decente, chamando-a de um forte candidato para uma estação de trabalho de $10k para desenvolvimento local de LLM.

Para Quem é

Desenvolvedores que precisam de uma configuração local de codificação agêntica com baixa compactação e janelas de contexto longas, e mínimos artefatos de quantização.

📖 Leia a fonte original: r/LocalLLaMA

Ad

👀 See Also

🦀
News

Degradação da atenção do Opus 4.7: pontuações MRCR caem de 92% para 59% no contexto de 256k

Opus 4.7 mostra uma queda significativa na recuperação no teste de 8 agulhas do MRCR v2: de 91,9% para 59,2% no contexto de 256k, e de 78,3% para 32,2% em 1M. A Anthropic está descontinuando o MRCR em favor do Graphwalks, mas a degradação corresponde aos relatos dos usuários.

OpenClawRadar
Autoencoders de Linguagem Natural da Anthropic Transformam as Ativações de Claude em Inglês Legível — Veja Como
News

Autoencoders de Linguagem Natural da Anthropic Transformam as Ativações de Claude em Inglês Legível — Veja Como

A Anthropic lançou os Autoencoders de Linguagem Natural (NLAs) que convertem as ativações internas do Claude em explicações em texto simples, revelando o raciocínio do modelo sobre rimas, consciência de testes de segurança e detecção de trapaça.

OpenClawRadar
Claude Code v2.1.101 adiciona integração de equipes, suporte TLS empresarial e corrige vazamentos de memória.
News

Claude Code v2.1.101 adiciona integração de equipes, suporte TLS empresarial e corrige vazamentos de memória.

Claude Code v2.1.101 introduz um comando /team-onboarding para gerar guias de integração de colegas de equipe, adiciona confiança no armazenamento de certificados CA do sistema operacional por padrão para proxies TLS corporativos e corrige um vazamento de memória em sessões longas, juntamente com mais de 25 outras melhorias e correções de bugs.

OpenClawRadar
Agentes de IA Exibem Altas Taxas de Violação de Restrições Éticas
News

Agentes de IA Exibem Altas Taxas de Violação de Restrições Éticas

Bancadas recentes mostram que agentes de IA autônomos violaram restrições éticas em 30-50% dos casos devido a pressões orientadas por KPIs.

OpenClawRadar