Infracost réduit l'utilisation des tokens Claude de 79% en reconcevant l'interface CLI pour les agents IA

Infracost, un outil CLI qui estime les coûts d'infrastructure cloud à partir de Terraform, CloudFormation et CDK, a repensé sa sortie pour les agents de codage IA comme Claude Code et Cursor. Le résultat : jusqu'à 79 % de tokens de sortie en moins et 67 % de coûts API en moins par rapport à une référence Claude seule. La refonte repose sur deux techniques : le prédicat pushdown dans le CLI et un format de sortie économe en tokens.
Détails du benchmark
- 16 questions sur un montage Terraform de 3 projets avec 1 171 ressources
- Modèle : Claude Opus, 5 répétitions par question
- Référence : Claude seul avec outils Bash et Read, sans compétence chargée
- Comparé à la compétence Infracost avec l'indicateur
--llm
Résultats clés
| Métrique | Claude seul | Avec compétence Infracost (--llm) | Changement |
|---|---|---|---|
| Réponses correctes | 5 / 11 (45 %) | 11 / 11 (100 %) | +6 |
| Coût total (USD) | 16,41 $ | 9,63 $ | -41 % |
| Tokens de sortie | 207 017 | 81 697 | -61 % |
| Temps réel | 50 min | 50 min | égal |
Un exemple : la question « compter les ressources distinctes échouant à la politique de balisage, dédupliquées entre projets » a coûté 3,51 $ avec Claude seul et a atteint la limite de 25 tours, sans retourner de réponse. Avec le CLI repensé, la même question a coûté 0,25 $ et a retourné la réponse correcte.
Approche technique
- Prédicat pushdown : Au lieu de faire passer l'agent du JSON via
jqou écrire des analyseurs Python, le CLI accepte des indicateurs de filtrage (ex.--tag-policy), déchargeant le calcul sur l'outil lui-même. Cela réduit le nombre de tours et la consommation de tokens. - Format de sortie économe en tokens : L'indicateur
--llmretourne un format compact, adapté aux agents, plutôt que des tableaux verbeux lisibles par l'homme ou du JSON complet. Cela explique à lui seul une part significative de la réduction.
Pièges du benchmark
Infracost a open-sourcé la configuration de son benchmark pour aider les autres à éviter les écueils :
- Sandbox
HOMEpour les exécutions de référence afin d'éviter le chargement accidentel de compétences - Définir
TMPDIRsur un répertoire local au projet pour contourner les problèmes de listes de contrôle d'accès macOS - Préfixer le binaire de test au
PATHplutôt que de compter sur une installation système - Utiliser 5 répétitions ou plus par cellule en raison de la variance de 20 à 30 % des tokens
- Relancer les cellules qui atteignent la limite de tours (
--rerun-failed) et réévaluer si le vérificateur change (--rescore)
Si vous maintenez un CLI que les agents IA appellent comme sous-processus, les mêmes deux mouvements — prédicat pushdown et un format de sortie dédié aux agents — s'appliquent probablement. La refonte a également amélioré le CLI destiné aux humains, bien que l'article se concentre sur le chemin des agents.
📖 Lire la source complète : HN AI Agents
👀 See Also

AskAlf : Plateforme d'orchestration multi-agent open source pour les flux de travail d'IA auto-hébergés
AskAlf est une plateforme d'orchestration multi-agents open-source qui s'exécute sur votre propre matériel, créant dynamiquement des travailleurs spécialisés qui se coordonnent via un système autonome avec une mémoire cognitive à 10 couches stockée dans pgvector.

RTX 5060 Ti 16GB : Benchmarks des LLM locaux : Les modèles 30B restent en tête pour le codage
Les benchmarks sur une RTX 5060 Ti 16GB montrent que le modèle Unsloth Qwen3-Coder-30B UD-Q3_K_XL atteint 76,3 tok/s sur Ubuntu avec un score de qualité de 8,14, ce qui en fait le modèle de codage recommandé par défaut. Le modèle Unsloth Qwen3.5-35B UD-Q2_K_XL atteint 80,1 tok/s mais avec des scores de qualité inférieurs.

Audacity MCP Server Donne à Claude AI un Contrôle Complet de l'Édition Audio
Un développeur a créé un serveur MCP qui connecte Claude AI à Audacity via mod-script-pipe, offrant 99 outils pour des commandes d'édition audio en langage naturel. L'outil open source fonctionne avec Claude Desktop, Claude Code ou Cursor.

Plugin OpenClaw CoreBrain : Mémoire persistante pour les agents d'IA de codage
Un nouveau plugin appelé CoreBrain résout les problèmes de mémoire d'OpenClaw en stockant les informations en dehors de la fenêtre de contexte dans un graphe de connaissances et en les injectant automatiquement avant chaque requête, éliminant ainsi le besoin d'appels d'outils et d'invocation de mémoire optionnelle.