Como reduzi os custos do OpenClaw em 60% através do roteamento de modelos

Análise e detalhamento de custos
Um usuário do OpenClaw que executava quatro agentes para análise de dados de sites, conteúdo de blog, revisão de código e suporte ao cliente descobriu que estava gastando US$ 420 em 20 dias (US$ 21/dia). Todos os agentes estavam configurados para usar exclusivamente o Claude Opus a US$ 5/1 milhão de tokens de entrada e US$ 25/1 milhão de tokens de saída.
Após registrar 13.500 chamadas em todos os agentes por 20 dias, eles categorizaram as tarefas por complexidade:
- 70% eram tarefas simples: respostas a perguntas frequentes, formatação básica, resumos de uma linha, resumos de PRs menores
- 16% eram tarefas padrão: rascunhos de e-mails mais longos, revisões de código moderadas, resumos de vários parágrafos
- 9% eram tarefas complexas: análise profunda de código, conteúdo de longa forma, contexto de vários arquivos
- 6% precisavam de raciocínio real: decisões de arquitetura, depuração complexa, lógica de várias etapas
A análise revelou que estavam pagando preços premium do Opus por 70% das tarefas que modelos mais baratos poderiam lidar sem perda de qualidade.
Comparação de preços de modelos
O usuário pesquisou os preços atuais dos modelos:
- Claude Opus 4.6: US$ 5,00 entrada/US$ 25,00 saída por 1 milhão de tokens (premium)
- Claude Sonnet 4.6: US$ 3,00 entrada/US$ 15,00 saída por 1 milhão de tokens (médio)
- Claude Haiku 4.5: US$ 1,00 entrada/US$ 5,00 saída por 200 mil tokens (econômico)
- GPT-5.4: US$ 2,50 entrada/US$ 15,00 saída por 1,05 milhão de tokens (premium)
- Gemini 3.1 Pro: US$ 2,00 entrada/US$ 12,00 saída por 1 milhão de tokens (médio)
- Gemini 3 Flash: US$ 0,50 entrada/US$ 3,00 saída por 1 milhão de tokens (econômico)
- GLM-5: US$ 0,72–1,00 entrada/US$ 2,30–3,20 saída por 200 mil tokens (econômico)
- Kimi K2.5: US$ 0,60 entrada/US$ 3,00 saída por 256 mil tokens (econômico)
- MiniMax M2.5: US$ 0,30 entrada/US$ 1,20 saída por 1 milhão de tokens (ultra-econômico)
Implementação e resultados
Agora eles executam o Opus apenas em tarefas genuinamente complexas. Todo o resto é direcionado para Sonnet, Haiku, Kimi K2.5 ou Qwen. A transição levou cerca de uma semana para encontrar os modelos certos para cada tipo de tarefa.
Principais descobertas dos testes:
- Claude Haiku foi o mais confiável para suporte ao cliente: respostas rápidas, seguiu bem as instruções de formatação, manteve as respostas concisas
- Haiku requer prompts explícitos - ele não infere tom ou estilo a partir de instruções vagas como o Opus faz
- Reescrever prompts do sistema para especificar exatamente como as respostas devem ser estruturadas tornou o Haiku sólido para suporte
- Kimi K2.5 é mais barato e lida bem com contexto mais longo para conversas de várias voltas
Os usuários não notaram nenhuma diferença em tarefas simples, e os custos caíram de US$ 420 para US$ 168 em 20 dias.
📖 Read the full source: r/openclaw
👀 See Also

Lições Práticas da Construção de um Agente Companheiro de IA Local Permanente
Um desenvolvedor compartilha insights de executar um agente de IA auto-hospedado em um Mac mini M4 por meses, abordando arquitetura de memória, otimização de prompt do sistema, embeddings locais, escadas de modelos e limites de iteração de ferramentas.

As Aplicações Versáteis do OpenClaw: Insights da Comunidade Clawdbot
Descubra as maneiras inovadoras como os usuários têm aproveitado o OpenClaw, desde projetos pessoais até ambiciosos sistemas automatizados, conforme compartilhado pela comunidade r/clawdbot.

Desenvolvedor Cria Visualização 3D de Cidade do GitHub Usando Código Claude em Um Dia
Um desenvolvedor criou o Git City, uma visualização 3D onde usuários do GitHub aparecem como edifícios em pixel art, com altura baseada em commits e largura em repositórios, usando exclusivamente Claude Code em um dia. O projeto utiliza Next.js, Three.js, Supabase e Vercel.

Painel de Finanças Pessoais Criado com Claude AI: Auto-hospedado com Backend do Google Sheets
Um desenvolvedor criou um painel de finanças pessoais full-stack usando Claude AI que agrega investimentos em ações, fundos mútuos, ouro físico e depósitos fixos. O aplicativo roda em um PC reserva, usa Cloudflare Tunnel para servir e armazena todos os dados nas próprias planilhas do Google do usuário.