15 LLMs Testados em 38 Tarefas: Benchmark Completo 2025

Um desenvolvedor criou um sistema de avaliação para determinar para quais LLMs direcionar o trabalho, testando 15 modelos em 38 tarefas de seu fluxo de trabalho real. As tarefas incluíram transformações de CSV, contagem de letras, aritmética modular, conformidade de formato e instruções de múltiplas etapas. Todas as tarefas foram pontuadas programaticamente usando regex e correspondência exata—nenhum juiz LLM foi envolvido.

Resultados da Avaliação

A avaliação envolveu 570 chamadas de API custando $2,29 no total. Principais descobertas:

Claude 3.5 Opus: 100% de pontuação, $0,69 por execução, 14,2 segundos
Claude 3.5 Sonnet: 100% de pontuação, $0,20 por execução, 5,1 segundos
MiniMax M2.5: 98,60% de pontuação, $0,02 por execução, 2,3 segundos
Kimi K2.5: 98,60% de pontuação, $0,05 por execução, 3,8 segundos
GPT-oss-20b (local): 98,30% de pontuação, $0 por execução, 4,1 segundos
Gemini 2.5 Flash: 97,10% de pontuação, $0,00 por execução, 1,1 segundos
Claude 3.5 Haiku: 96,90% de pontuação, $0,02 por execução, 1,8 segundos

Análise de Custo-Desempenho

Sonnet e Opus obtiveram 100%, mas o Opus custa 3,5 vezes mais por chamada. Para as tarefas diárias do desenvolvedor, o Sonnet lida com tudo que o Opus faz. O Gemini Flash a $0,003 por execução versus o Opus a $0,69 por execução representa uma diferença de custo de 265 vezes para uma diferença de desempenho de 2,9 pontos.

Descobertas Surpreendentes

MiniMax M2.5 e Kimi K2.5 alcançaram 98,6% com 100% de conformidade de formato—o desenvolvedor não havia usado nenhum dos modelos antes de executar a avaliação. O GPT-oss-20b rodando localmente obteve 98,3% por $0, superando o Haiku e o DeepSeek R1.

Processo de QA

O processo de garantia de qualidade revelou bugs de pontuação. Os resultados iniciais mostraram o Haiku superando o Sonnet, o que acabou sendo um bug no sistema de pontuação que produzia notas acima de 100%. Cinco verificações de QA foram realizadas, cada uma com um modelo diferente, e cada uma encontrou bugs que as anteriores haviam perdido.

O desenvolvedor está mudando seu uso diário para o Sonnet com base nesses resultados, mas planeja alternar entre modelos com mais frequência dadas as variações de desempenho.

📖 Read the full source: r/ClaudeAI

Resultados de Benchmark: 15 LLMs Testados em 38 Tarefas de Fluxo de Trabalho Real

Resultados da Avaliação

Análise de Custo-Desempenho

Descobertas Surpreendentes

Processo de QA

👀 See Also

Claude Counter: Aplicativo Android monitora limites de uso do Claude com notificações em tempo real

Claude-Code v2.1.63 adiciona ganchos HTTP, comandos de barra e corrige vazamentos de memória.

MartinLoop: Plano de Controle Open-Source para Agentes de Codificação de IA com Limites de Orçamento e Trilhas de Auditoria

Claude Opus 4.6: Um Modelo para Tarefas de Engenharia Sustentadas