Infracost reduce el uso de tokens de Claude en un 79% al rediseñar la CLI para agentes de IA

Infracost, una herramienta CLI que estima los costos de infraestructura en la nube a partir de Terraform, CloudFormation y CDK, ha rediseñado su salida para agentes de codificación de IA como Claude Code y Cursor. El resultado: hasta un 79% menos de tokens de salida y un 67% menos de costos de API en comparación con una línea base de Claude solo. El rediseño se basa en dos técnicas: pushdown de predicados en la CLI y un formato de salida eficiente en tokens.
Detalles del benchmark
- 16 preguntas sobre un fixture de Terraform de 3 proyectos con 1,171 recursos
- Modelo: Claude Opus, 5 repeticiones por pregunta
- Línea base: Claude solo con herramientas Bash y Read, sin skill cargado
- Comparado con el skill de Infracost usando el flag de salida
--llm
Resultados clave
| Métrica | Claude solo | Con skill Infracost (--llm) | Cambio |
|---|---|---|---|
| Respuestas correctas | 5 / 11 (45%) | 11 / 11 (100%) | +6 |
| Costo total (USD) | $16.41 | $9.63 | -41% |
| Tokens de salida | 207,017 | 81,697 | -61% |
| Tiempo real | 50 min | 50 min | empate |
Un ejemplo: la pregunta "contar recursos distintos que fallan la política de etiquetado, deduplicados entre proyectos" costó $3.51 con Claude solo y alcanzó el límite de 25 turnos, sin devolver respuesta. Con el CLI rediseñado, la misma pregunta costó $0.25 y devolvió la respuesta correcta.
Enfoque técnico
- Pushdown de predicados: En lugar de que el agente canalice JSON a través de
jqo escriba parsers en Python, el CLI acepta flags de filtrado (por ejemplo,--tag-policy), trasladando la computación a la propia herramienta. Esto reduce el número de turnos y el consumo de tokens. - Formato de salida eficiente en tokens: El flag
--llmdevuelve un formato compacto y amigable para agentes, en lugar de tablas verbosas legibles por humanos o JSON completo. Esto solo representa una parte significativa de la reducción.
Problemáticas del harness de benchmark
Infracost publicó su configuración de harness como código abierto para ayudar a otros a evitar problemas:
- Usar
HOMEen sandbox para ejecuciones de línea base para evitar la carga accidental de skills - Establecer
TMPDIRen un directorio local del proyecto para evitar problemas de ACL en macOS - Anteponer el binario de prueba al
PATHen lugar de depender de la instalación del sistema - Usar 5+ repeticiones por celda debido a una varianza del 20-30% en tokens
- Re-ejecutar celdas que alcanzan límites de turnos (
--rerun-failed) y re-puntuar si el verificador cambia (--rescore)
Si mantienes un CLI al que los agentes de IA llaman como subproceso, los mismos dos movimientos (pushdown de predicados y un formato de salida dedicado para agentes) probablemente aplican. El rediseño también mejoró el CLI orientado a humanos, aunque el artículo se centra en la ruta del agente.
📖 Leer la fuente completa: HN AI Agents
👀 Ver también

Claude Code v2.1.139 añade el comando /goal para tareas asíncronas de larga duración
Claude Code v2.1.139 introduce el comando /goal, que permite sesiones de lanzar y olvidar que se ejecutan hasta que se cumple una condición de finalización, además de una nueva vista de agentes para monitorear sesiones activas.

Usando OpenAI Codex IDE con modelos locales de Ollama en VSCodium.
El IDE de OpenAI Codex se puede configurar para trabajar con modelos locales de Ollama en VSCodium utilizando configuraciones específicas en el archivo config.toml.

Sistema de memoria persistente de código abierto para Claude Code que resuelve la pérdida de contexto entre sesiones
Un desarrollador creó un sistema de memoria basado en archivos para Claude Code que captura automáticamente el contexto del proyecto sin necesidad de complementos ni claves API. Utiliza transcripciones de conversaciones, un archivo de bandeja de entrada y trabajos cron nocturnos para mantener una memoria persistente entre sesiones.

Manifest Agrega Soporte para Planes de Tokens MiniMax con el Modelo M2.7
Manifest, una capa de enrutamiento de código abierto para OpenClaw, ahora admite planes de tokens MiniMax a partir de $10/mes. El nuevo modelo MiniMax M2.7 está específicamente entrenado para flujos de trabajo de OpenClaw y obtiene puntuaciones de 62.7 en MM-ClawBench y 56.2 en SWE-Bench Pro.