Infracost reduz o uso de tokens do Claude em 79% ao redesenhar a CLI para agentes de IA

Infracost, uma ferramenta de CLI que estima custos de infraestrutura na nuvem a partir de Terraform, CloudFormation e CDK, redesenhou sua saída para agentes de codificação de IA como Claude Code e Cursor. O resultado: até 79% menos tokens de saída e 67% menos custos de API em comparação com uma linha de base apenas com Claude. O redesenho gira em torno de duas técnicas: pushdown de predicados na CLI e um formato de saída eficiente em tokens.
Detalhes do benchmark
- 16 perguntas sobre um fixture Terraform de 3 projetos com 1.171 recursos
- Modelo: Claude Opus, 5 repetições por pergunta
- Linha de base: Claude puro com ferramentas Bash e Read, sem skill carregado
- Comparado com o skill Infracost com a flag de saída
--llm
Resultados principais
| Métrica | Claude puro | Com skill Infracost (--llm) | Mudança |
|---|---|---|---|
| Respostas corretas | 5 / 11 (45%) | 11 / 11 (100%) | +6 |
| Custo total (USD) | $16.41 | $9.63 | -41% |
| Tokens de saída | 207.017 | 81.697 | -61% |
| Tempo real | 50 min | 50 min | empate |
Um exemplo: a pergunta "contar recursos distintos que falham na política de tagging, desduplicados entre projetos" custou $3.51 com Claude puro e atingiu o limite de 25 turnos, sem retornar resposta. Com a CLI redesenhada, a mesma pergunta custou $0.25 e retornou a resposta correta.
Abordagem técnica
- Pushdown de predicados: Em vez de fazer o agente canalizar JSON através de
jqou escrever parsers Python, a CLI aceita flags de filtragem (por exemplo,--tag-policy), transferindo a computação para a própria ferramenta. Isso reduz o número de turnos e o consumo de tokens. - Formato de saída eficiente em tokens: A flag
--llmretorna um formato compacto e amigável para agentes, em vez de tabelas verbosas legíveis por humanos ou JSON completo. Isso sozinho é responsável por uma parcela significativa da redução.
Armadilhas do harness de benchmark
Infracost abriu o código do seu harness para ajudar outros a evitar armadilhas:
- Sandbox
HOMEpara execuções de linha de base, evitando carregamento acidental de skills - Definir
TMPDIRpara um diretório local do projeto para contornar problemas de ACL do macOS - Adicionar o binário de teste ao
PATHem vez de confiar na instalação do sistema - Usar 5+ repetições por célula devido à variação de 20-30% nos tokens
- Reexecutar células que atingiram o limite de turnos (
--rerun-failed) e reavaliar se o verificador mudar (--rescore)
Se você mantém uma CLI que agentes de IA chamam como subprocesso, as mesmas duas ações — pushdown de predicados e um formato de saída dedicado para agentes — provavelmente se aplicam. O redesenho também melhorou a CLI voltada para humanos, embora o artigo foque no caminho dos agentes.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

O Hollow AgentOS reduz o uso de tokens do Claude Code em 68,5% com um sistema operacional nativo em JSON para agentes de IA
Hollow AgentOS é um sistema operacional nativo em JSON projetado especificamente para agentes de IA que reduz o uso de tokens no Claude Code em 68,5%, eliminando a sobrecarga ineficiente de comandos de shell.

Vellium adiciona animais de estimação de desktop e agentes inspirados em CLI para LLMs locais
Vellium, um aplicativo multiplataforma de código aberto para LLMs locais, agora oferece suporte a animais de estimação virtuais que flutuam sobre janelas e agentes com integração MCP, comandos de terminal e edição de arquivos.

Agentes Alternativos de IA para Codificação Após a Remoção do Plano do Claude
Um usuário do Reddit testou várias alternativas de agentes de IA para programação após a descontinuação do plano de programação do Claude, incluindo Kimi (US$ 20/mês), Minimax (US$ 10/mês), Z.AI GLM (US$ 10/mês), Stepfun (US$ 6-10/mês), Mistral (US$ 15/mês) e Arcee Trinity (baseado em API).

Extensão do Visual Studio 2022 Adiciona Integração Nativa do Ollama para LLMs Locais
Uma extensão gratuita para o Visual Studio 2022 conecta-se diretamente a endpoints locais do Ollama, permitindo assistência de IA privada para programação sem alternar entre ferramentas. Suporta modelos como DeepSeek e Llama 3 com opções de fallback na nuvem.