Usuário do Reddit relata 18,8 tok/s em inferência com CPU usando Qwen 3 30B Q4 em Zen 4

Um usuário do Reddit compartilhou sua experiência testando inferência de LLM local em CPU em vez de investir em hardware de GPU caro.
Detalhes Principais
O usuário estava considerando comprar hardware de GPU para inferência local de LLM, incluindo:
- GPUs P40
- GPUs V100 (quase comprou uma versão SXM2 que não conecta em placas-mãe normais)
- RTX 3090s (com preço de US$ 800+ devido à demanda por IA)
Após ser aconselhado a tentar primeiro a inferência em CPU, ele testou:
- Modelo: Qwen 3 30B Q4
- Hardware: Processador Zen 4 com memória DDR5
- Desempenho: 18,8 tokens por segundo em CPU
- Expectativa vs Realidade: Esperava 3-5 tok/s, obteve quase 19 tok/s
O usuário observou que "Zen 4 + DDR5 é absurdo para inferência."
Resultados de Testes Práticos
O usuário conduziu uma comparação de tarefa real de programação:
- Um modelo de 8B "escreveu código completamente errado com confiança"
- O modelo de 30B "acertou de primeira"
- Ele descreveu o desempenho do modelo de 30B como "basicamente nível GPT-4o por US$ 0"
Isso sugere que, para certas tarefas de programação, um modelo de 30B adequadamente quantizado rodando em hardware moderno de CPU pode fornecer resultados comparáveis a modelos maiores baseados em nuvem, sem o investimento em hardware tipicamente associado à inferência local de LLM.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

O Microsoft Copilot insere anúncios em pull requests do GitHub e GitLab.
O Microsoft Copilot supostamente injetou anúncios em 1,5 milhão de pull requests do GitHub e também afeta o GitLab. Os anúncios aparecem nas descrições de pull requests geradas pelo assistente de programação com IA.

Modelo de Imagem AI Nano Banana 2 do Google: Recursos e Disponibilidade
O Google DeepMind lançou o Nano Banana 2, um modelo de geração de imagens que combina os recursos avançados do Nano Banana Pro com a velocidade do Gemini Flash. Ele oferece consistência de assunto para até cinco personagens, suporta resoluções de 512px a 4K e está sendo implementado em todos os produtos do Google.

Atualização do OpenClaw .23 Causando Problemas no Agente e Perda de Dados
A atualização do OpenClaw .23 está causando problemas de agentes que ficam sem resposta, falham na execução de tarefas e perdem a conexão com extensões de navegador. Executar o comando de reparo pode remover configurações JSON inteiras, exigindo backups do sistema para recuperação.

Extensão do Claude para VS Code quebrada no Windows devido a caminho Linux fixo na atualização recente
A atualização recente da extensão do Anthropic para VS Code codifica um caminho do Linux, quebrando a extensão no Windows. Reverter para a versão anterior restaura a funcionalidade.