Gemma3:4B Supera Modelos Maiores em Chat Telefone-Casa

Resultados do benchmark de chat telefone-para-casa

Um benchmark recente avaliou 8 LLMs locais para aplicações de chat telefone-para-casa onde a inferência é executada em um computador doméstico. O teste envolveu 640 avaliações (8 modelos × 8 conjuntos de dados × 10 amostras) em hardware Mac mini M4 Pro 24Gb.

Fórmula de aptidão e ponderação

A fórmula de aptidão composta ponderou três fatores: 50% experiência do usuário no chat, 30% velocidade e 20% qualidade de texto curto. Essa ponderação prioriza a experiência do usuário para aplicações móveis onde a latência é mais importante.

Principais descobertas

Gemma3:4B venceu com uma pontuação de aptidão composta de 88,7, apesar de ser o menor modelo testado
Alcançou o menor TTFT (11,2s), maior throughput (89,3 tok/s) e temperaturas mais baixas (45°C)
Modelos maiores como GPT-OSS:20B passaram em 70% das tarefas, mas ficaram em 6º lugar devido ao TTFT médio de 25,4s
O desempenho térmico variou significativamente: Qwen3:14B atingiu pico de 83°C, DeepSeek-R1:14B a 81°C
Magistral:24B foi excluído da classificação final após acionar loops de timeout e atingir 97°C de temperatura da GPU

Por que modelos menores tiveram melhor desempenho

O benchmark revelou que para aplicações de chat por telefone, tempos de resposta do primeiro token (TTFT) mais rápidos e menor carga térmica importam mais do que precisão bruta. Um modelo com 77,5% de precisão, mas que requer 25s de espera pelo primeiro token, perde para um que responde com 72,5% de precisão, mas responde em 11s. A diferença térmica é significativa para confiabilidade e longevidade do hardware pessoal.

Análise independente

Uma análise independente usando Claude no mesmo conjunto de dados de 640 avaliações ponderou confiabilidade e TTFT de forma mais agressiva e chegou a uma ordem ligeiramente diferente no top-4, confirmando que a ponderação de KPIs é uma escolha, não uma verdade absoluta.

Considerações de caso de uso

O autor observa que para diferentes casos de uso, como programação ou redação de textos longos, a fórmula de ponderação seria completamente invertida, priorizando qualidade em vez de velocidade e experiência do usuário no chat.

📖 Leia a fonte completa: r/LocalLLaMA