Reduza Custos de Agente de $18 para $4 com Roteamento de Subtarefas

Um desenvolvedor no r/ClaudeAI descreve uma estratégia prática de otimização de custos para loops de agente: rotear subtarefas rotineiras para modelos baratos e reservar modelos caros (Opus 4.7) apenas para raciocínio complexo. Seu agente de refatoração — lidando com renomeação de variáveis CSS, atualizações de configuração YAML e execuções de linter via MCP — originalmente enviava cada etapa para o Opus 4.7 a um total de cerca de $18. Após implementar a lógica de roteamento, 178 de 212 etapas foram para modelos baratos, reduzindo o custo para aproximadamente $4, sem diferença observável de qualidade nas alterações rotineiras.

Lógica de Roteamento

Subtarefas difíceis → Opus 4.7: Arquitetura de componentes, depuração de código às 2h da manhã, qualquer coisa que exija raciocínio sustentado em conversas longas. O autor observa que o Opus é realmente incomparável nesse tipo de trabalho — uma tentativa anterior de rotear um bug de middleware de autenticação para um modelo mais barato quebrou silenciosamente o tratamento de sessão, custando uma hora para rastrear.
Subtarefas rotineiras → modelos mais baratos: Lint, renomeação, edições de configuração, orquestração de ferramentas. O autor optou pelo DeepSeek V4 Pro para tarefas gerais de codificação e pelo Tencent Hunyuan Hy3 preview para chamadas pesadas de ferramentas. No final de abril, o Hunyuan Hy3 estava classificado em #1 no OpenRouter por volume de chamadas de ferramentas e quase nunca erra uma chamada de função quando o esquema está limpo.

Comparação de Custos

Opus 4.7: ~$0,18 por milhão de tokens de entrada (estimado a partir do contexto de alternativa ~28x mais barata).
Tencent Hunyuan Hy3: $0,18 por milhão de tokens de entrada, $0,59 por milhão de saída — aproximadamente 28x mais barato que o Opus 4.7 na entrada.
Mesma refatoração de 212 etapas: 178 etapas para o nível barato, 34 etapas para o Opus. O custo caiu de $18 para ~$4.

Modos de Falha

O modelo de chamada de ferramentas alucina parâmetros quando os esquemas são confusos (o autor admite que os esquemas eram ruins).
O DeepSeek V4 Pro ocasionalmente escreve código sintaticamente perfeito que faz o oposto do que foi solicitado, sobrevivendo a uma olhada rápida.
Nenhum dos modelos baratos consegue igualar o Opus na depuração de problemas profundos (por exemplo, fluxo de autenticação silenciosamente ignorando um cookie).

Heurística de Decisão

A regra prática de roteamento do autor: "Quão caro é pegar uma resposta errada?" Uma correção de lint ruim custa um git revert de 2 segundos; uma decisão de arquitetura ruim custa a tarde toda.

A economia permitiu tarefas anteriormente ignoradas — como escrever e executar testes para cada alteração de CSS, ou regenerar todas as imagens Open Graph — porque a frações de centavo por chamada de ferramenta não há motivo para não fazer.

📖 Leia a fonte original: r/ClaudeAI

Redirecionamento de Subtarefas do Agente para Modelos Mais Baratos Reduziu o Custo de $18 para $4 na Mesma Refatoração

Lógica de Roteamento

Comparação de Custos

Modos de Falha

Heurística de Decisão

👀 See Also

Cinco Erros Comuns na Configuração do OpenClaw que Desperdiçam Dinheiro e Criam Riscos de Segurança

Usuários do Claude AI Obtêm Melhores Resultados ao Fornecer Contexto em Vez de Instruções Genéricas

Como as Instruções do Projeto Claude São Injetadas — E Por Que Alterá-las no Meio da Conversação Quebra o Histórico

OpenClaw depura configuração ESP32+CC1101 de 433 MHz usando HackRF no Raspberry Pi 5