O benchmark mostra que o modelo menor de 4B supera LLMs maiores em aplicações de chat telefone-casa.

Resultados do benchmark de chat telefone-para-casa
Um benchmark recente avaliou 8 LLMs locais para aplicações de chat telefone-para-casa onde a inferência é executada em um computador doméstico. O teste envolveu 640 avaliações (8 modelos × 8 conjuntos de dados × 10 amostras) em hardware Mac mini M4 Pro 24Gb.
Fórmula de aptidão e ponderação
A fórmula de aptidão composta ponderou três fatores: 50% experiência do usuário no chat, 30% velocidade e 20% qualidade de texto curto. Essa ponderação prioriza a experiência do usuário para aplicações móveis onde a latência é mais importante.
Principais descobertas
- Gemma3:4B venceu com uma pontuação de aptidão composta de 88,7, apesar de ser o menor modelo testado
- Alcançou o menor TTFT (11,2s), maior throughput (89,3 tok/s) e temperaturas mais baixas (45°C)
- Modelos maiores como GPT-OSS:20B passaram em 70% das tarefas, mas ficaram em 6º lugar devido ao TTFT médio de 25,4s
- O desempenho térmico variou significativamente: Qwen3:14B atingiu pico de 83°C, DeepSeek-R1:14B a 81°C
- Magistral:24B foi excluído da classificação final após acionar loops de timeout e atingir 97°C de temperatura da GPU
Por que modelos menores tiveram melhor desempenho
O benchmark revelou que para aplicações de chat por telefone, tempos de resposta do primeiro token (TTFT) mais rápidos e menor carga térmica importam mais do que precisão bruta. Um modelo com 77,5% de precisão, mas que requer 25s de espera pelo primeiro token, perde para um que responde com 72,5% de precisão, mas responde em 11s. A diferença térmica é significativa para confiabilidade e longevidade do hardware pessoal.
Análise independente
Uma análise independente usando Claude no mesmo conjunto de dados de 640 avaliações ponderou confiabilidade e TTFT de forma mais agressiva e chegou a uma ordem ligeiramente diferente no top-4, confirmando que a ponderação de KPIs é uma escolha, não uma verdade absoluta.
Considerações de caso de uso
O autor observa que para diferentes casos de uso, como programação ou redação de textos longos, a fórmula de ponderação seria completamente invertida, priorizando qualidade em vez de velocidade e experiência do usuário no chat.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Análise de 2.181 Endpoints de Servidores MCP Remotos Revela Problemas de Confiabilidade
Uma verificação automatizada de saúde de 2.181 endpoints de servidores MCP remotos constatou que apenas 9% estão confirmados como ativos e saudáveis, com 52% completamente inativos e 37% exigindo autenticação. Os dados incluem divisões por categoria, medições de latência e estatísticas de tempo de atividade.

VS Code 1.117.0 Adiciona Automaticamente Copilot como Coautor no Commit — Veja o que o Aciona
VS Code 1.117.0 adiciona 'Co-authored-by: Copilot <[email protected]>' aos commits quando sugestões inline são usadas — mesmo para uma única vírgula. O recurso é opt-out e não foi claramente comunicado.

Claude-Code v2.1.94 adiciona suporte ao Mantle e corrige bugs críticos
O Claude-Code v2.1.94 introduz suporte ao Amazon Bedrock via Mantle com a variável de ambiente CLAUDE_CODE_USE_MANTLE=1, altera o nível de esforço padrão para alto para a maioria dos usuários e corrige mais de 15 bugs, incluindo tratamento de limites de taxa, problemas de login no macOS e problemas no sistema de plugins.

O Claude da Anthropic Realiza 80 Mil Entrevistas Estruturadas como Alternativa a Pesquisas
A Anthropic usou o Claude para conduzir entrevistas estruturadas com aproximadamente 80.000 usuários em mais de 150 países e 70+ idiomas, com o LLM atuando tanto como entrevistador quanto analista para coletar insights conversacionais.