Réduction tokens Claude 79% : Infracost repense son CLI

Infracost, un outil CLI qui estime les coûts d'infrastructure cloud à partir de Terraform, CloudFormation et CDK, a repensé sa sortie pour les agents de codage IA comme Claude Code et Cursor. Le résultat : jusqu'à 79 % de tokens de sortie en moins et 67 % de coûts API en moins par rapport à une référence Claude seule. La refonte repose sur deux techniques : le prédicat pushdown dans le CLI et un format de sortie économe en tokens.

Détails du benchmark

16 questions sur un montage Terraform de 3 projets avec 1 171 ressources
Modèle : Claude Opus, 5 répétitions par question
Référence : Claude seul avec outils Bash et Read, sans compétence chargée
Comparé à la compétence Infracost avec l'indicateur --llm

Résultats clés

Métrique	Claude seul	Avec compétence Infracost (--llm)	Changement
Réponses correctes	5 / 11 (45 %)	11 / 11 (100 %)	+6
Coût total (USD)	16,41 $	9,63 $	-41 %
Tokens de sortie	207 017	81 697	-61 %
Temps réel	50 min	50 min	égal

Un exemple : la question « compter les ressources distinctes échouant à la politique de balisage, dédupliquées entre projets » a coûté 3,51 $ avec Claude seul et a atteint la limite de 25 tours, sans retourner de réponse. Avec le CLI repensé, la même question a coûté 0,25 $ et a retourné la réponse correcte.

Approche technique

Prédicat pushdown : Au lieu de faire passer l'agent du JSON via jq ou écrire des analyseurs Python, le CLI accepte des indicateurs de filtrage (ex. --tag-policy), déchargeant le calcul sur l'outil lui-même. Cela réduit le nombre de tours et la consommation de tokens.
Format de sortie économe en tokens : L'indicateur --llm retourne un format compact, adapté aux agents, plutôt que des tableaux verbeux lisibles par l'homme ou du JSON complet. Cela explique à lui seul une part significative de la réduction.

Pièges du benchmark

Infracost a open-sourcé la configuration de son benchmark pour aider les autres à éviter les écueils :

Sandbox HOME pour les exécutions de référence afin d'éviter le chargement accidentel de compétences
Définir TMPDIR sur un répertoire local au projet pour contourner les problèmes de listes de contrôle d'accès macOS
Préfixer le binaire de test au PATH plutôt que de compter sur une installation système
Utiliser 5 répétitions ou plus par cellule en raison de la variance de 20 à 30 % des tokens
Relancer les cellules qui atteignent la limite de tours (--rerun-failed) et réévaluer si le vérificateur change (--rescore)

Si vous maintenez un CLI que les agents IA appellent comme sous-processus, les mêmes deux mouvements — prédicat pushdown et un format de sortie dédié aux agents — s'appliquent probablement. La refonte a également amélioré le CLI destiné aux humains, bien que l'article se concentre sur le chemin des agents.

📖 Lire la source complète : HN AI Agents

Infracost réduit l'utilisation des tokens Claude de 79% en reconcevant l'interface CLI pour les agents IA

Détails du benchmark

Résultats clés

Approche technique

Pièges du benchmark

👀 See Also

RalphTerm : boucle de style ralph avec sessions de révision croisées de différents agents

Résultats de référence : L'Agent en essaim Claude avec système de mémoire permet des économies de coûts de tokens de 30 à 43 %

TideSurf : l'outil de compression DOM réduit l'utilisation de tokens des agents web par 30, et accélère le TTFT par 12

Crochet de notation de confiance open-source pour Claude Code surveille les sessions, bloque les chemins protégés