RTX 5000 PRO 48GB Fornece Cache de Precisão de 4400 tok/s para Qwen3.6-27B

✍️ OpenClawRadar📅 Publicado: May 14, 2026🔗 Source

Um desenvolvedor apostou na RTX 5000 Pro 48GB ($4300 com impostos) contra um Mac Studio — e os números justificam o salto: até 4400 tokens/segundo em processamento de prompt (PP) e 50–80 tok/s em geração de texto (TG) com Qwen3.6-27B-FP8 e cache KV BF16 de precisão total.

Detalhamento de Hardware e Custo

Custo da GPU: $4300 (com impostos)
Custo total da montagem: $5600 com 64GB de RAM
Limite de contexto: 200K tokens em precisão total (cache KV BF16)

Benchmarks de Desempenho

Processamento de prompt: 4400 tok/s
Geração de texto: 50–60 tok/s para prompts muito grandes, até 80 tok/s para menores
Modelo: Qwen3.6-27B-FP8 com cache de precisão total
Consumo de energia: Aproximadamente metade de uma configuração com duas RTX 5090

Observações Principais

O usuário montou o PC do zero, sem experiência, contando com o Claude Code (consumindo 50% dos limites semanais do Claude Code Max na configuração do vLLM/Linux). Um post no Reddit detalhando as configurações exatas do vLLM para Qwen3.6-27B-FP8 com cache BF16 foi a referência principal. O autor observa que duas RTX 5090 teriam desempenho superior, mas com custo, ruído e consumo de energia significativamente maiores.

📖 Leia a fonte completa: r/LocalLLaMA

👀 See Also

News

O modelo furtivo Healer Alpha da OpenRouter parece ser uma variante não lançada do Qwen 3.5-Omni.

O OpenRouter implantou um modelo omni-modal gratuito e anônimo chamado Healer Alpha com janela de contexto de 262.144 e capacidades multimodais. Análise forense sugere que é uma variante não lançada do Qwen 3.5-Omni da Alibaba.

Mar 12, 2026, 01:45 AM UTC

OpenClawRadar

News

OpenClaw 2026.4.29 Quebra Configurações: Picos de CPU, Restrições de Ferramentas e Correções

O OpenClaw 2026.4.29 introduz picos de CPU causados pelo active-run steering, perfis de ferramentas restritos que quebram comandos exec/fs e manipulação mais rigorosa de bate-papos em grupo. Reverta ou aplique correções direcionadas.

May 1, 2026, 12:15 PM UTC

OpenClawRadar

News

Comparação de Benchmark dos Modelos Qwen 3.5 com os Principais Modelos de IA

Um site de comparação de benchmarks inclui pontuações verificadas e infográficos comparativos para os modelos Qwen 3.5 (122B, 35B, 27B, 397B) contra modelos como GPT-5.2, Claude 4.5 Opus, Gemini-3 Pro e outros.

Apr 16, 2026, 05:45 PM UTC

OpenClawRadar

News

Automatizando as Mídias Sociais com OpenClaw: Possibilidades e Debates

Uma discussão no Reddit explora o potencial de automatizar tarefas de mídia social usando o OpenClaw.

Feb 13, 2026, 01:45 AM UTC

OpenClawRadar