RTX 5000 PRO 48GB Fornece Cache de Precisão de 4400 tok/s para Qwen3.6-27B

Um desenvolvedor apostou na RTX 5000 Pro 48GB ($4300 com impostos) contra um Mac Studio — e os números justificam o salto: até 4400 tokens/segundo em processamento de prompt (PP) e 50–80 tok/s em geração de texto (TG) com Qwen3.6-27B-FP8 e cache KV BF16 de precisão total.
Detalhamento de Hardware e Custo
- Custo da GPU: $4300 (com impostos)
- Custo total da montagem: $5600 com 64GB de RAM
- Limite de contexto: 200K tokens em precisão total (cache KV BF16)
Benchmarks de Desempenho
- Processamento de prompt: 4400 tok/s
- Geração de texto: 50–60 tok/s para prompts muito grandes, até 80 tok/s para menores
- Modelo: Qwen3.6-27B-FP8 com cache de precisão total
- Consumo de energia: Aproximadamente metade de uma configuração com duas RTX 5090
Observações Principais
O usuário montou o PC do zero, sem experiência, contando com o Claude Code (consumindo 50% dos limites semanais do Claude Code Max na configuração do vLLM/Linux). Um post no Reddit detalhando as configurações exatas do vLLM para Qwen3.6-27B-FP8 com cache BF16 foi a referência principal. O autor observa que duas RTX 5090 teriam desempenho superior, mas com custo, ruído e consumo de energia significativamente maiores.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Mulher do Tennessee Presa por Seis Meses Devido a Erro de Reconhecimento Facial por IA
Angela Lipps, uma avó de 50 anos do Tennessee, passou quase seis meses na prisão depois que a polícia de Fargo usou um software de reconhecimento facial para identificá-la incorretamente como suspeita em um caso de fraude bancária na Dakota do Norte. Ela foi libertada na véspera de Natal, após registros bancários provarem que ela estava a 1.200 milhas de distância no momento dos crimes.

TranslateGemma-12b: Revisão Humana Captura 71% de Erros Perdidos pelas Métricas Automatizadas
A revisão humana MQM sinalizou 71% dos segmentos de tradução que as métricas automáticas consideraram limpos, com todos os 25 erros de precisão no quadrante cego a métricas.

Vazamento da Mercor: 4 TB de amostras de voz + IDs roubados – O que os atacantes podem fazer agora
4 TB de gravações de voz combinadas com documentos de identidade governamentais roubados de 40.000 contratados da Mercor. Os invasores podem clonar vozes a partir de 15 segundos de áudio limpo e burlar a verificação de voz de bancos, realizar chamadas deepfake e fraudes de seguros.

Agentes de codificação de IA podem fragmentar o fluxo de trabalho e drenar a atenção, alerta desenvolvedor
Um desenvolvedor web com 12 anos de experiência relata que usar Claude Code diariamente leva a micro interrupções, perda de foco e exaustão mental — sem ganhos mensuráveis de produtividade.