Project Headroom : l'outil open source réduit de 90% les coûts de tokens IA

Le senior ingénieur de Netflix, Tejas Chopra, a ouvert le code source de Project Headroom, un proxy local qui compresse les entrées de la fenêtre de contexte avant qu'elles n'atteignent le LLM. Les premières estimations indiquent que jusqu'à 90 % des tokens sont redondants — et depuis janvier 2026, l'outil a fait économiser aux utilisateurs un total de 700 000 $ sur 200 milliards de tokens.

Comment ça marche

Headroom fonctionne comme un proxy sur le port 8787 de la machine du développeur. Vous encapsulez votre CLI LLM avec la commande headroom wrap, par exemple :

headroom wrap codex

Il analyse toutes les entrées — historique de conversation, journaux, sorties d'outils, fichiers, morceaux RAG — et applique une compression sans perte et réversible. Il est particulièrement efficace pour réduire :

Les journaux serveur : 90 % éliminés
Les sorties d'outils MCP : 70 % de JSON redondant
Les sorties de base de données : schémas répétitifs
Les arborescences de fichiers : métadonnées répétées

Développé en Python et Node, Headroom en est actuellement à la version v0.22 avec 2 000 étoiles GitHub et 120 forks.

Pourquoi c'est important

Chopra a été inspiré par une facture de 287 $ pour Claude Sonnet suite à du débogage et du refactoring de routine. Il a découvert que le coupable n'était pas ses instructions — mais le code standard, les schémas JSON et les métadonnées machine. « Ce n'est pas de la prose. Ce n'est pas de l'écriture créative. Ce sont des données compressibles déguisées en texte », a-t-il écrit.

Par défaut, le cache de préfixe de Claude a un TTL de seulement cinq minutes ; après une période d'inactivité, tout le contexte se rafraîchit. Vous pouvez définir un TTL plus long mais payer le double pour les écritures afin d'économiser 90 % sur les lectures. Headroom contourne ces compromis.

Alternatives

D'autres outils existent : RTK (Rust Token Killer) réduit les sorties de commandes verbeuses, et LeanCTX en est une variante. Des offres commerciales comme Token Company (financée par Y Combinator) proposent la compression en tant que service. Mais la caractéristique clé de Headroom est la compression réversible et le fait de rester dans le flux de travail du développeur.

📖 Lire la source complète : HN AI Agents

Projet Headroom : l'outil open source d'un ingénieur Netflix réduit de 90 % les coûts des jetons IA

Comment ça marche

Pourquoi c'est important

Alternatives

👀 See Also

Mengram ajoute une mémoire persistante aux agents OpenClaw.

Schema structuré : Qwen Meetup Draft - Le harnais d'appel de fonction améliore la conformité CoT de 9,91 % à 100 %

Claude Code v2.1.176 : Sessions adaptatives linguistiques, mise en cache des identifiants Bedrock et des dizaines de correctifs

Pont IDE Open-Source Claude Connecte Dispatch, Application de Bureau et Claude Code