6 Modelos de Baixo Custo vs. Claude Sonnet 4.6: Benchmark OpenClaw

Um desenvolvedor executou um benchmark para encontrar uma alternativa mais barata ao Claude Sonnet 4.6 como orquestrador principal em uma configuração do agente de codificação de IA OpenClaw. O teste utilizou uma bateria consistente de 5 tarefas com arquivos e ferramentas reais, sem prompts de assistência.

As Tarefas da Bateria

T1: Recuperar detalhes de um arquivo específico (itens abertos do MEMORY.md)
T2: Inspecionar arquivos, identificar incompletude, cruzar referências + priorizar
T3: Executar um comando shell, analisar e relatar a saída exata
T4: Identificar uma tarefa de delegação e repassá-la corretamente
T5: Sintetizar resultados em um resumo executivo

Resultados do Benchmark

Pontuações brutas de 5, com custo por milhão de tokens de saída:

Claude Sonnet 4.6: 5/5 ($15/M) – Base de referência, lida com toda a operação perfeitamente
o4-mini: 5/5 ($4.40/M) – 71% mais barato, acertou todas as tarefas, mas com atraso perceptível nas cadeias de raciocínio
Grok 4.1 Fast: 3/5 ($0.50/M) – Arrasou T1/T3/T5, mas falhou feio na T2 (leu 4 linhas do log de SMS, declarou "tudo limpo")
Gemini 2.5 Flash: 1/5 ($2.50/M) – Acertou a T1, depois parou de responder no meio do prompt
DeepSeek V3.2: 0/5 ($0.42/M) – Tempo de execução de 2 segundos, saída zero
Llama 4 Maverick: Desclassificado ($0.60/M) – Alucinou conteúdos de arquivo, inventou nomes falsos de vídeo datados de 2024 (o ano atual é 2026), nunca chamou ferramentas reais

Achado Principal: A Lacuna de Julgamento

O ponto crítico de falha foi o julgamento de arquivos da T2. Os modelos precisavam ler um log curto (4 linhas: SMS enviado, concluído), perceber que estava incompleto, mudar para o MEMORY.md, listar todos os itens abertos no espaço de trabalho e priorizar corretamente (consulta médica 19 de março > cron flake > etc.). Apenas Sonnet e o4-mini tiveram sucesso. Os outros modelos foram descritos como "preguiçosos ou cegos" nessa tarefa.

Implementação Prática

A conclusão do desenvolvedor: Sonnet permanece como orquestrador principal. Grok 4.1 Fast é atribuído a todos os subagentes (QA de vídeo, distribuição, análise) para uma economia de 97% em tarefas delimitadas, como "gerar escolha" ou "postar tweet".

Eles também implementaram um trabalho cron às 3h da manhã que busca novos lançamentos de modelos via pesquisa na web, executa automaticamente a bateria, gera um gráfico de barras do melhor para o pior e envia o relatório por e-mail.

A lição principal: A orquestração requer julgamento sobre lacunas em arquivos, momento de delegação e síntese – áreas onde os modelos baratos consistentemente falham. Subagentes, no entanto, podem usar modelos mais baratos de forma eficaz para tarefas específicas e delimitadas.

📖 Read the full source: r/openclaw