O benchmark mostra que o modelo menor de 4B supera LLMs maiores em aplicações de chat telefone-casa.

✍️ OpenClawRadar📅 Publicado: April 20, 2026🔗 Source
O benchmark mostra que o modelo menor de 4B supera LLMs maiores em aplicações de chat telefone-casa.
Ad

Resultados do benchmark de chat telefone-para-casa

Um benchmark recente avaliou 8 LLMs locais para aplicações de chat telefone-para-casa onde a inferência é executada em um computador doméstico. O teste envolveu 640 avaliações (8 modelos × 8 conjuntos de dados × 10 amostras) em hardware Mac mini M4 Pro 24Gb.

Fórmula de aptidão e ponderação

A fórmula de aptidão composta ponderou três fatores: 50% experiência do usuário no chat, 30% velocidade e 20% qualidade de texto curto. Essa ponderação prioriza a experiência do usuário para aplicações móveis onde a latência é mais importante.

Principais descobertas

  • Gemma3:4B venceu com uma pontuação de aptidão composta de 88,7, apesar de ser o menor modelo testado
  • Alcançou o menor TTFT (11,2s), maior throughput (89,3 tok/s) e temperaturas mais baixas (45°C)
  • Modelos maiores como GPT-OSS:20B passaram em 70% das tarefas, mas ficaram em 6º lugar devido ao TTFT médio de 25,4s
  • O desempenho térmico variou significativamente: Qwen3:14B atingiu pico de 83°C, DeepSeek-R1:14B a 81°C
  • Magistral:24B foi excluído da classificação final após acionar loops de timeout e atingir 97°C de temperatura da GPU
Ad

Por que modelos menores tiveram melhor desempenho

O benchmark revelou que para aplicações de chat por telefone, tempos de resposta do primeiro token (TTFT) mais rápidos e menor carga térmica importam mais do que precisão bruta. Um modelo com 77,5% de precisão, mas que requer 25s de espera pelo primeiro token, perde para um que responde com 72,5% de precisão, mas responde em 11s. A diferença térmica é significativa para confiabilidade e longevidade do hardware pessoal.

Análise independente

Uma análise independente usando Claude no mesmo conjunto de dados de 640 avaliações ponderou confiabilidade e TTFT de forma mais agressiva e chegou a uma ordem ligeiramente diferente no top-4, confirmando que a ponderação de KPIs é uma escolha, não uma verdade absoluta.

Considerações de caso de uso

O autor observa que para diferentes casos de uso, como programação ou redação de textos longos, a fórmula de ponderação seria completamente invertida, priorizando qualidade em vez de velocidade e experiência do usuário no chat.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Análise de 2.181 Endpoints de Servidores MCP Remotos Revela Problemas de Confiabilidade
News

Análise de 2.181 Endpoints de Servidores MCP Remotos Revela Problemas de Confiabilidade

Uma verificação automatizada de saúde de 2.181 endpoints de servidores MCP remotos constatou que apenas 9% estão confirmados como ativos e saudáveis, com 52% completamente inativos e 37% exigindo autenticação. Os dados incluem divisões por categoria, medições de latência e estatísticas de tempo de atividade.

OpenClawRadar
VS Code 1.117.0 Adiciona Automaticamente Copilot como Coautor no Commit — Veja o que o Aciona
News

VS Code 1.117.0 Adiciona Automaticamente Copilot como Coautor no Commit — Veja o que o Aciona

VS Code 1.117.0 adiciona 'Co-authored-by: Copilot <[email protected]>' aos commits quando sugestões inline são usadas — mesmo para uma única vírgula. O recurso é opt-out e não foi claramente comunicado.

OpenClawRadar
Claude-Code v2.1.94 adiciona suporte ao Mantle e corrige bugs críticos
News

Claude-Code v2.1.94 adiciona suporte ao Mantle e corrige bugs críticos

O Claude-Code v2.1.94 introduz suporte ao Amazon Bedrock via Mantle com a variável de ambiente CLAUDE_CODE_USE_MANTLE=1, altera o nível de esforço padrão para alto para a maioria dos usuários e corrige mais de 15 bugs, incluindo tratamento de limites de taxa, problemas de login no macOS e problemas no sistema de plugins.

OpenClawRadar
O Claude da Anthropic Realiza 80 Mil Entrevistas Estruturadas como Alternativa a Pesquisas
News

O Claude da Anthropic Realiza 80 Mil Entrevistas Estruturadas como Alternativa a Pesquisas

A Anthropic usou o Claude para conduzir entrevistas estruturadas com aproximadamente 80.000 usuários em mais de 150 países e 70+ idiomas, com o LLM atuando tanto como entrevistador quanto analista para coletar insights conversacionais.

OpenClawRadar