Qwen3.6 27B FP8 roda 200k tokens BF16 KV Cache a 80 TPS em RTX 5000 PRO 48GB

Um usuário do Reddit no r/LocalLLaMA relata a execução do Qwen3.6-27B-FP8 com um cache KV BF16 de 200k tokens a 60–90 TPS em uma única GPU RTX 5000 PRO 48GB. A configuração usa vLLM 0.20.1, CUDA 12.9 e a quantização FP8 oficial da Qwen, preservando multimodalidade e decodificação especulativa MTP.
Detalhes da Configuração
O ambiente usa FlashInfer FP8 MoE, FP8 Marlin e agendamento assíncrono. Principais variáveis de ambiente e comando de inicialização:
export VLLM_USE_FLASHINFER_MOE_FP8=1
export VLLM_TEST_FORCE_FP8_MARLIN=1
export VLLM_SLEEP_WHEN_IDLE=1
export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1
export VLLM_LOG_STATS_INTERVAL=2
export VLLM_WORKER_MULTIPROC_METHOD=spawn
export SAFETENSORS_FAST_GPU=1
export CUDA_DEVICE_ORDER=PCI_BUS_ID
export TORCH_FLOAT32_MATMUL_PRECISION=high
export PYTORCH_ALLOC_CONF=expandable_segments:True
vllm serve Qwen/Qwen3.6-27B-FP8
--host 0.0.0.0 --port 8080
--performance-mode interactivity
--trust-remote-code
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--reasoning-parser qwen3
--mm-encoder-tp-mode data
--mm-processor-cache-type shm
--gpu-memory-utilization 0.975
--speculative-config '{"method":"mtp","num_speculative_tokens":2}'
--compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}'
--async-scheduling
--attention-backend flashinfer
--max-model-len 196608
--kv-cache-dtype bfloat16
--enable-prefix-caching
Observações de Desempenho
Com decodificação especulativa MTP=2, o sistema produz 60–90 TPS durante geração de código. O cache KV BF16 evita problemas de compactação vistos em KV quantizados, tornando sessões longas de codificação mais confiáveis. O usuário observa que a configuração roda em uma única RTX 5000 PRO 48GB com 64GB de RAM de sistema e uma CPU decente, chamando-a de um forte candidato para uma estação de trabalho de $10k para desenvolvimento local de LLM.
Para Quem é
Desenvolvedores que precisam de uma configuração local de codificação agêntica com baixa compactação e janelas de contexto longas, e mínimos artefatos de quantização.
📖 Leia a fonte original: r/LocalLLaMA
👀 See Also
Degradação da atenção do Opus 4.7: pontuações MRCR caem de 92% para 59% no contexto de 256k
Opus 4.7 mostra uma queda significativa na recuperação no teste de 8 agulhas do MRCR v2: de 91,9% para 59,2% no contexto de 256k, e de 78,3% para 32,2% em 1M. A Anthropic está descontinuando o MRCR em favor do Graphwalks, mas a degradação corresponde aos relatos dos usuários.

Autoencoders de Linguagem Natural da Anthropic Transformam as Ativações de Claude em Inglês Legível — Veja Como
A Anthropic lançou os Autoencoders de Linguagem Natural (NLAs) que convertem as ativações internas do Claude em explicações em texto simples, revelando o raciocínio do modelo sobre rimas, consciência de testes de segurança e detecção de trapaça.

Claude Code v2.1.101 adiciona integração de equipes, suporte TLS empresarial e corrige vazamentos de memória.
Claude Code v2.1.101 introduz um comando /team-onboarding para gerar guias de integração de colegas de equipe, adiciona confiança no armazenamento de certificados CA do sistema operacional por padrão para proxies TLS corporativos e corrige um vazamento de memória em sessões longas, juntamente com mais de 25 outras melhorias e correções de bugs.

Agentes de IA Exibem Altas Taxas de Violação de Restrições Éticas
Bancadas recentes mostram que agentes de IA autônomos violaram restrições éticas em 30-50% dos casos devido a pressões orientadas por KPIs.