Usuário do Reddit relata 18,8 tok/s em inferência com CPU usando Qwen 3 30B Q4 em Zen 4

✍️ OpenClawRadar📅 Publicado: April 15, 2026🔗 Source
Usuário do Reddit relata 18,8 tok/s em inferência com CPU usando Qwen 3 30B Q4 em Zen 4
Ad

Um usuário do Reddit compartilhou sua experiência testando inferência de LLM local em CPU em vez de investir em hardware de GPU caro.

Detalhes Principais

O usuário estava considerando comprar hardware de GPU para inferência local de LLM, incluindo:

  • GPUs P40
  • GPUs V100 (quase comprou uma versão SXM2 que não conecta em placas-mãe normais)
  • RTX 3090s (com preço de US$ 800+ devido à demanda por IA)

Após ser aconselhado a tentar primeiro a inferência em CPU, ele testou:

  • Modelo: Qwen 3 30B Q4
  • Hardware: Processador Zen 4 com memória DDR5
  • Desempenho: 18,8 tokens por segundo em CPU
  • Expectativa vs Realidade: Esperava 3-5 tok/s, obteve quase 19 tok/s

O usuário observou que "Zen 4 + DDR5 é absurdo para inferência."

Ad

Resultados de Testes Práticos

O usuário conduziu uma comparação de tarefa real de programação:

  • Um modelo de 8B "escreveu código completamente errado com confiança"
  • O modelo de 30B "acertou de primeira"
  • Ele descreveu o desempenho do modelo de 30B como "basicamente nível GPT-4o por US$ 0"

Isso sugere que, para certas tarefas de programação, um modelo de 30B adequadamente quantizado rodando em hardware moderno de CPU pode fornecer resultados comparáveis a modelos maiores baseados em nuvem, sem o investimento em hardware tipicamente associado à inferência local de LLM.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

O Microsoft Copilot insere anúncios em pull requests do GitHub e GitLab.
News

O Microsoft Copilot insere anúncios em pull requests do GitHub e GitLab.

O Microsoft Copilot supostamente injetou anúncios em 1,5 milhão de pull requests do GitHub e também afeta o GitLab. Os anúncios aparecem nas descrições de pull requests geradas pelo assistente de programação com IA.

OpenClawRadar
Modelo de Imagem AI Nano Banana 2 do Google: Recursos e Disponibilidade
News

Modelo de Imagem AI Nano Banana 2 do Google: Recursos e Disponibilidade

O Google DeepMind lançou o Nano Banana 2, um modelo de geração de imagens que combina os recursos avançados do Nano Banana Pro com a velocidade do Gemini Flash. Ele oferece consistência de assunto para até cinco personagens, suporta resoluções de 512px a 4K e está sendo implementado em todos os produtos do Google.

OpenClawRadar
Atualização do OpenClaw .23 Causando Problemas no Agente e Perda de Dados
News

Atualização do OpenClaw .23 Causando Problemas no Agente e Perda de Dados

A atualização do OpenClaw .23 está causando problemas de agentes que ficam sem resposta, falham na execução de tarefas e perdem a conexão com extensões de navegador. Executar o comando de reparo pode remover configurações JSON inteiras, exigindo backups do sistema para recuperação.

OpenClawRadar
Extensão do Claude para VS Code quebrada no Windows devido a caminho Linux fixo na atualização recente
News

Extensão do Claude para VS Code quebrada no Windows devido a caminho Linux fixo na atualização recente

A atualização recente da extensão do Anthropic para VS Code codifica um caminho do Linux, quebrando a extensão no Windows. Reverter para a versão anterior restaura a funcionalidade.

OpenClawRadar