RTX 5000 PRO 48GB Fornece Cache de Precisão de 4400 tok/s para Qwen3.6-27B

✍️ OpenClawRadar📅 Publicado: May 14, 2026🔗 Source
RTX 5000 PRO 48GB Fornece Cache de Precisão de 4400 tok/s para Qwen3.6-27B
Ad

Um desenvolvedor apostou na RTX 5000 Pro 48GB ($4300 com impostos) contra um Mac Studio — e os números justificam o salto: até 4400 tokens/segundo em processamento de prompt (PP) e 50–80 tok/s em geração de texto (TG) com Qwen3.6-27B-FP8 e cache KV BF16 de precisão total.

Detalhamento de Hardware e Custo

  • Custo da GPU: $4300 (com impostos)
  • Custo total da montagem: $5600 com 64GB de RAM
  • Limite de contexto: 200K tokens em precisão total (cache KV BF16)

Benchmarks de Desempenho

  • Processamento de prompt: 4400 tok/s
  • Geração de texto: 50–60 tok/s para prompts muito grandes, até 80 tok/s para menores
  • Modelo: Qwen3.6-27B-FP8 com cache de precisão total
  • Consumo de energia: Aproximadamente metade de uma configuração com duas RTX 5090
Ad

Observações Principais

O usuário montou o PC do zero, sem experiência, contando com o Claude Code (consumindo 50% dos limites semanais do Claude Code Max na configuração do vLLM/Linux). Um post no Reddit detalhando as configurações exatas do vLLM para Qwen3.6-27B-FP8 com cache BF16 foi a referência principal. O autor observa que duas RTX 5090 teriam desempenho superior, mas com custo, ruído e consumo de energia significativamente maiores.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Mulher do Tennessee Presa por Seis Meses Devido a Erro de Reconhecimento Facial por IA
News

Mulher do Tennessee Presa por Seis Meses Devido a Erro de Reconhecimento Facial por IA

Angela Lipps, uma avó de 50 anos do Tennessee, passou quase seis meses na prisão depois que a polícia de Fargo usou um software de reconhecimento facial para identificá-la incorretamente como suspeita em um caso de fraude bancária na Dakota do Norte. Ela foi libertada na véspera de Natal, após registros bancários provarem que ela estava a 1.200 milhas de distância no momento dos crimes.

OpenClawRadar
TranslateGemma-12b: Revisão Humana Captura 71% de Erros Perdidos pelas Métricas Automatizadas
News

TranslateGemma-12b: Revisão Humana Captura 71% de Erros Perdidos pelas Métricas Automatizadas

A revisão humana MQM sinalizou 71% dos segmentos de tradução que as métricas automáticas consideraram limpos, com todos os 25 erros de precisão no quadrante cego a métricas.

OpenClawRadar
Vazamento da Mercor: 4 TB de amostras de voz + IDs roubados – O que os atacantes podem fazer agora
News

Vazamento da Mercor: 4 TB de amostras de voz + IDs roubados – O que os atacantes podem fazer agora

4 TB de gravações de voz combinadas com documentos de identidade governamentais roubados de 40.000 contratados da Mercor. Os invasores podem clonar vozes a partir de 15 segundos de áudio limpo e burlar a verificação de voz de bancos, realizar chamadas deepfake e fraudes de seguros.

OpenClawRadar
Agentes de codificação de IA podem fragmentar o fluxo de trabalho e drenar a atenção, alerta desenvolvedor
News

Agentes de codificação de IA podem fragmentar o fluxo de trabalho e drenar a atenção, alerta desenvolvedor

Um desenvolvedor web com 12 anos de experiência relata que usar Claude Code diariamente leva a micro interrupções, perda de foco e exaustão mental — sem ganhos mensuráveis de produtividade.

OpenClawRadar