Resultados de Benchmark: 6 Modelos de Baixo Custo vs. Claude Sonnet 4.6 para Orquestração OpenClaw

Um desenvolvedor executou um benchmark para encontrar uma alternativa mais barata ao Claude Sonnet 4.6 como orquestrador principal em uma configuração do agente de codificação de IA OpenClaw. O teste utilizou uma bateria consistente de 5 tarefas com arquivos e ferramentas reais, sem prompts de assistência.
As Tarefas da Bateria
- T1: Recuperar detalhes de um arquivo específico (itens abertos do MEMORY.md)
- T2: Inspecionar arquivos, identificar incompletude, cruzar referências + priorizar
- T3: Executar um comando shell, analisar e relatar a saída exata
- T4: Identificar uma tarefa de delegação e repassá-la corretamente
- T5: Sintetizar resultados em um resumo executivo
Resultados do Benchmark
Pontuações brutas de 5, com custo por milhão de tokens de saída:
- Claude Sonnet 4.6: 5/5 ($15/M) – Base de referência, lida com toda a operação perfeitamente
- o4-mini: 5/5 ($4.40/M) – 71% mais barato, acertou todas as tarefas, mas com atraso perceptível nas cadeias de raciocínio
- Grok 4.1 Fast: 3/5 ($0.50/M) – Arrasou T1/T3/T5, mas falhou feio na T2 (leu 4 linhas do log de SMS, declarou "tudo limpo")
- Gemini 2.5 Flash: 1/5 ($2.50/M) – Acertou a T1, depois parou de responder no meio do prompt
- DeepSeek V3.2: 0/5 ($0.42/M) – Tempo de execução de 2 segundos, saída zero
- Llama 4 Maverick: Desclassificado ($0.60/M) – Alucinou conteúdos de arquivo, inventou nomes falsos de vídeo datados de 2024 (o ano atual é 2026), nunca chamou ferramentas reais
Achado Principal: A Lacuna de Julgamento
O ponto crítico de falha foi o julgamento de arquivos da T2. Os modelos precisavam ler um log curto (4 linhas: SMS enviado, concluído), perceber que estava incompleto, mudar para o MEMORY.md, listar todos os itens abertos no espaço de trabalho e priorizar corretamente (consulta médica 19 de março > cron flake > etc.). Apenas Sonnet e o4-mini tiveram sucesso. Os outros modelos foram descritos como "preguiçosos ou cegos" nessa tarefa.
Implementação Prática
A conclusão do desenvolvedor: Sonnet permanece como orquestrador principal. Grok 4.1 Fast é atribuído a todos os subagentes (QA de vídeo, distribuição, análise) para uma economia de 97% em tarefas delimitadas, como "gerar escolha" ou "postar tweet".
Eles também implementaram um trabalho cron às 3h da manhã que busca novos lançamentos de modelos via pesquisa na web, executa automaticamente a bateria, gera um gráfico de barras do melhor para o pior e envia o relatório por e-mail.
A lição principal: A orquestração requer julgamento sobre lacunas em arquivos, momento de delegação e síntese – áreas onde os modelos baratos consistentemente falham. Subagentes, no entanto, podem usar modelos mais baratos de forma eficaz para tarefas específicas e delimitadas.
📖 Read the full source: r/openclaw
👀 See Also

Bit-Chat: Agentes de IA Podem Enviar Bitcoin via Lightning Através de Plataformas de Mensagens
Uma configuração chamada Bit-Chat permite que agentes de IA enviem pagamentos em Bitcoin pela rede Lightning através de e-mail, WhatsApp, Telegram ou Signal. Os agentes podem gerar endereços dedicados como [email protected] e os pagamentos funcionam mesmo que o destinatário não esteja registrado.

OpenCawt: Sistema Judiciário de Código Aberto para Disputas de Agentes de IA
OpenCawt é um sistema judiciário de código aberto para agentes autônomos que permite que eles registrem disputas, apresentem evidências, recebam decisões estruturadas e seluem resultados como registros públicos verificáveis. Inclui uma camada de protocolo leve chamada OCP para formalizar acordos e decisões dentro de outras aplicações.

O Caminho Rápido de Busca de Memória QMD do OpenClaw Tinha Bugs Silenciosos
A busca de memória integrada do OpenClaw usa correspondência básica de palavras-chave, mas os usuários podem alternar para o QMD para busca semântica em arquivos markdown do espaço de trabalho. Um caminho rápido através do MCPorter foi quebrado com três bugs que faziam cada chamada falhar silenciosamente e retornar à execução mais lenta da CLI.

Caddie: Alternativa ao OpenClaw Baseada no Slack Será Lançada na Próxima Semana
Caddie é uma versão baseada no Slack do OpenClaw que não requer instalação local ou configuração MCP. Os usuários autorizam através do Slack App Directory em 60 segundos, depois digitam comandos para automatizar tarefas no Gmail, LinkedIn, CRM, calendário e mais de 100 outras ferramentas.