Como a Mendral Reduziu Custos de LLM ao Atualizar para Opus: Padrão Triager, Acesso SQL e Arquitetura de Sub-Agente

✍️ OpenClawRadar📅 Publicado: April 29, 2026🔗 Source
Como a Mendral Reduziu Custos de LLM ao Atualizar para Opus: Padrão Triager, Acesso SQL e Arquitetura de Sub-Agente
Ad

A Mendral publicou recentemente detalhes sobre como eles migraram para o Opus 4.6 para análise de falhas de CI enquanto reduziam os custos gerais de LLM em comparação com a configuração anterior com Sonnet 4.0. A chave é uma arquitetura que separa a triagem da investigação e usa subagentes baratos para o trabalho pesado.

Arquitetura: Triador barato, planejador caro

Das ~4.000 falhas de CI analisadas, 3.187 eram duplicatas — um teste instável conhecido, um soluço de infraestrutura ou um pico de rede. Acordar um modelo caro para isso é um desperdício. Mas a deduplicação não é determinística: o mesmo job pode falhar por razões diferentes. A solução deles é um padrão de triador:

  • Um agente Haiku lida com a tarefa restrita: decidir se uma falha já está rastreada. Ele usa correspondência exata e busca semântica (pgvector) em mensagens de erro conhecidas. Duas strings diferentes como operator does not exist bigint character varying e migration type mismatch on installation_id são a mesma causa raiz — a busca semântica captura isso.
  • Em caso de dúvida, o Haiku escala para o Opus 4.6. Um falso positivo custa um pouco; um falso negativo perde um bug real.
  • 4 de cada 5 falhas nunca chegam ao Opus. Uma correspondência do triador custa ~25x menos que uma investigação completa.
Ad

Deixe os agentes puxarem o contexto, não empurre

Em vez de enfiar logs de 200K+ linhas nos prompts, os agentes recebem uma interface SQL para o ClickHouse. Há uma tabela bruta (github_logs, uma linha por linha de log) e views materializadas com dados pré-agregados: taxas de falha por workflow, tempos de job, contagens de resultado. A maioria das investigações começa com as views para restringir, depois mergulha nos logs brutos. Se uma consulta retornar muitas linhas, o sistema trunca e sugere uma view mais específica. Se os logs ainda não foram ingeridos, os agentes recorrem ao GitHub CLI.

Modelos caros planejam, modelos baratos executam

O Opus forma uma hipótese e gera subagentes Haiku limitados a um nível de profundidade — sem expansão ilimitada. Cada subagente recebe um prompt do Opus: exatamente o que pesquisar e como. Exemplo de um caso real:

Três jobs de CI do Storybook falharam no mesmo commit, travando em pnpm install. O Opus enviou um subagente para buscar mensagens de erro dessa etapa. O ClickHouse ainda não tinha os logs, então o subagente usou o GitHub CLI e retornou: gyp ERR! not found: make[email protected] não conseguiu compilar porque make não estava no runner. O Opus então consultou o ClickHouse pela tendência de falha nos últimos 14 dias, encontrou o ponto de inflexão e escalou. Os prompts dos subagentes são explícitos: "Busque os logs de CI para esta execução. Retorne as mensagens de erro exatas da etapa pnpm install, a saída de erro completa, especialmente as últimas 50-100 linhas."

Para quem é isso

Equipes construindo agentes baseados em LLM para depuração de CI ou qualquer tarefa onde o tamanho do contexto e o custo sejam preocupações.

📖 Leia a fonte completa: HN LLM Tools

Ad

👀 See Also

Sistema de engenharia portátil para Claude Code com ganchos, agentes especializados e autoaperfeiçoamento
Tools

Sistema de engenharia portátil para Claude Code com ganchos, agentes especializados e autoaperfeiçoamento

Um desenvolvedor criou um sistema de engenharia portátil que reside em ~/.claude/ e se aplica automaticamente a todos os projetos, apresentando uma constituição de 650 linhas, ganchos determinísticos que bloqueiam comandos perigosos, três agentes especializados e uma abordagem de engenharia composta que se aprimora sozinha.

OpenClawRadar
Mike: IA Jurídica de Código Aberto com Auto-Hospedagem e Suporte a Múltiplos Modelos
Tools

Mike: IA Jurídica de Código Aberto com Auto-Hospedagem e Suporte a Múltiplos Modelos

Mike é uma alternativa open-source ao Harvey e Legora, oferecendo chat com documentos, extração tabular e templates de workflow — tudo auto-hospedável com suas próprias chaves de API do Claude ou Gemini.

OpenClawRadar
Gemma 4 26B vs Qwen 3.5 27B: Benchmark de Fluxo de Trabalho Empresarial Local em RTX 4090
Tools

Gemma 4 26B vs Qwen 3.5 27B: Benchmark de Fluxo de Trabalho Empresarial Local em RTX 4090

Um desenvolvedor testou o Gemma 4 26B e o Qwen 3.5 27B em uma estação de trabalho RTX 4090 para 18 tarefas reais de operador de negócios. O Gemma venceu por 13 a 5, mostrando velocidade mais rápida e melhor disciplina para trabalho de execução diária, enquanto o Qwen se destacou em pensamento estratégico mais amplo.

OpenClawRadar
ClawWatcher Atinge 200 Usuários, Relata Economia Coletiva de Mais de US$ 28K na API OpenClaw
Tools

ClawWatcher Atinge 200 Usuários, Relata Economia Coletiva de Mais de US$ 28K na API OpenClaw

ClawWatcher, uma ferramenta que monitora os custos da API OpenClaw em tempo real, atingiu 200 usuários. Segundo seu criador, os usuários economizaram coletivamente mais de US$ 28.000 em custos de API, com uma redução média de custos de 45%.

OpenClawRadar