Usuário do Reddit relata 18,8 tok/s em inferência com CPU usando Qwen 3 30B Q4 em Zen 4

✍️ OpenClawRadar📅 Publicado: April 15, 2026🔗 Source

Um usuário do Reddit compartilhou sua experiência testando inferência de LLM local em CPU em vez de investir em hardware de GPU caro.

Detalhes Principais

O usuário estava considerando comprar hardware de GPU para inferência local de LLM, incluindo:

GPUs P40
GPUs V100 (quase comprou uma versão SXM2 que não conecta em placas-mãe normais)
RTX 3090s (com preço de US$ 800+ devido à demanda por IA)

Após ser aconselhado a tentar primeiro a inferência em CPU, ele testou:

Modelo: Qwen 3 30B Q4
Hardware: Processador Zen 4 com memória DDR5
Desempenho: 18,8 tokens por segundo em CPU
Expectativa vs Realidade: Esperava 3-5 tok/s, obteve quase 19 tok/s

O usuário observou que "Zen 4 + DDR5 é absurdo para inferência."

Resultados de Testes Práticos

O usuário conduziu uma comparação de tarefa real de programação:

Um modelo de 8B "escreveu código completamente errado com confiança"
O modelo de 30B "acertou de primeira"
Ele descreveu o desempenho do modelo de 30B como "basicamente nível GPT-4o por US$ 0"

Isso sugere que, para certas tarefas de programação, um modelo de 30B adequadamente quantizado rodando em hardware moderno de CPU pode fornecer resultados comparáveis a modelos maiores baseados em nuvem, sem o investimento em hardware tipicamente associado à inferência local de LLM.

📖 Leia a fonte completa: r/LocalLLaMA

👀 See Also

News

Claude para Excel e PowerPoint Atualizações: Contexto e Integração de Habilidades entre Aplicativos

Claude para Excel e PowerPoint agora compartilham contexto de conversa entre arquivos abertos, com Habilidades disponíveis em ambos os complementos. As ferramentas estão acessíveis via Amazon Bedrock, Google Cloud's Vertex AI e Microsoft Foundry para usuários pagantes de Mac e Windows.

Mar 11, 2026, 11:45 PM UTC

OpenClawRadar

News

Minions da Stripe: Agentes de Codificação AI de Uma Só Tomada

Os Minions são os agentes de codificação de IA de uso único do Stripe que visam aumentar a produtividade dos desenvolvedores aproveitando a automação de ponta a ponta usando LLMs.

Feb 13, 2026, 02:45 AM UTC

OpenClawRadar

News

A Atlassian Habilita a Coleta de Dados Padrão para Treinamento de IA

A Atlassian habilitou a coleta de dados padrão em seus produtos para treinar modelos de IA, de acordo com uma fonte publicada no Hacker News com 312 pontos e 75 comentários.

Apr 20, 2026, 06:15 PM UTC

OpenClawRadar

News

Resultados de Benchmark para os Modelos Qwen3.5 com Contexto de 2K a 400K no RTX 4090

Um desenvolvedor testou várias variantes do modelo Qwen3.5 em uma RTX 4090, medindo o desempenho em janelas de contexto de 2.048 a 400.000 tokens. Os benchmarks incluem métricas de tempo para o primeiro token e revelam problemas com alguns modelos que exigem testes de descarga KV.

Mar 7, 2026, 11:45 PM UTC

OpenClawRadar