Resultados de Benchmark: 15 LLMs Testados em 38 Tarefas de Fluxo de Trabalho Real

Um desenvolvedor criou um sistema de avaliação para determinar para quais LLMs direcionar o trabalho, testando 15 modelos em 38 tarefas de seu fluxo de trabalho real. As tarefas incluíram transformações de CSV, contagem de letras, aritmética modular, conformidade de formato e instruções de múltiplas etapas. Todas as tarefas foram pontuadas programaticamente usando regex e correspondência exata—nenhum juiz LLM foi envolvido.
Resultados da Avaliação
A avaliação envolveu 570 chamadas de API custando $2,29 no total. Principais descobertas:
- Claude 3.5 Opus: 100% de pontuação, $0,69 por execução, 14,2 segundos
- Claude 3.5 Sonnet: 100% de pontuação, $0,20 por execução, 5,1 segundos
- MiniMax M2.5: 98,60% de pontuação, $0,02 por execução, 2,3 segundos
- Kimi K2.5: 98,60% de pontuação, $0,05 por execução, 3,8 segundos
- GPT-oss-20b (local): 98,30% de pontuação, $0 por execução, 4,1 segundos
- Gemini 2.5 Flash: 97,10% de pontuação, $0,00 por execução, 1,1 segundos
- Claude 3.5 Haiku: 96,90% de pontuação, $0,02 por execução, 1,8 segundos
Análise de Custo-Desempenho
Sonnet e Opus obtiveram 100%, mas o Opus custa 3,5 vezes mais por chamada. Para as tarefas diárias do desenvolvedor, o Sonnet lida com tudo que o Opus faz. O Gemini Flash a $0,003 por execução versus o Opus a $0,69 por execução representa uma diferença de custo de 265 vezes para uma diferença de desempenho de 2,9 pontos.
Descobertas Surpreendentes
MiniMax M2.5 e Kimi K2.5 alcançaram 98,6% com 100% de conformidade de formato—o desenvolvedor não havia usado nenhum dos modelos antes de executar a avaliação. O GPT-oss-20b rodando localmente obteve 98,3% por $0, superando o Haiku e o DeepSeek R1.
Processo de QA
O processo de garantia de qualidade revelou bugs de pontuação. Os resultados iniciais mostraram o Haiku superando o Sonnet, o que acabou sendo um bug no sistema de pontuação que produzia notas acima de 100%. Cinco verificações de QA foram realizadas, cada uma com um modelo diferente, e cada uma encontrou bugs que as anteriores haviam perdido.
O desenvolvedor está mudando seu uso diário para o Sonnet com base nesses resultados, mas planeja alternar entre modelos com mais frequência dadas as variações de desempenho.
📖 Read the full source: r/ClaudeAI
👀 See Also

Claude Code Plugin de Grau de Produção v3.0 Lançado: Pipeline de Desenvolvimento de Software Autônomo
O Plugin Production Grade v3.0 para Claude Code agora está disponível como software gratuito e de código aberto sob licença MIT. O plugin cria um pipeline completo de desenvolvimento, desde requisitos até implantação, com 13 habilidades de IA atuando como uma equipe de engenharia.

Gerenciador de projetos estilo Trello local para agentes OpenClaw usando arquivos markdown
Um desenvolvedor criou um quadro Trello local para gerenciar projetos com agentes OpenClaw, usando Node.js + Express para a API, React + react-trello para a interface do usuário e arquivos markdown com frontmatter YAML como camada de dados. O sistema roda na máquina OpenClaw e é acessado localmente, com os agentes lendo/escrevendo arquivos de cartões diretamente no sistema de arquivos.

Seis ferramentas de código aberto que abordam os problemas de segurança, custo e complexidade do OpenClaw
Um desenvolvedor testou seis ferramentas da comunidade para resolver as lacunas de segurança do OpenClaw sinalizadas pela Cisco, custos crescentes e configuração complexa. ClawSec fornece varredura de segurança e verificação de integridade, Antfarm permite fluxos de trabalho multiagente determinísticos e LanceDB Pro melhora a recuperação de memória com busca vetorial híbrida.

Jentic Mini: Camada de API e Execução de Ações Auto-Hospedada para OpenClaw
Jentic Mini é uma camada de execução de API e ações auto-hospedada que fica entre agentes de IA e APIs externas, armazenando credenciais em um cofre criptografado e fornecendo kits de ferramentas com escopo definido com chaves individualmente revogáveis. Ele importa automaticamente mais de 10.000 especificações OpenAPI e fontes de fluxo de trabalho Arazzo quando as credenciais são adicionadas.