Project Headroom: herramienta de código abierto reduce un 90% el costo de tokens de IA

Tejas Chopra, ingeniero senior de Netflix, lanzó como código abierto Project Headroom, un proxy local que comprime la entrada de la ventana de contexto antes de que llegue al LLM. Las estimaciones iniciales indican que hasta un 90% de los tokens son redundantes y, desde enero de 2026, la herramienta ha ahorrado a los usuarios un total de $700,000 en 200 mil millones de tokens.

Cómo funciona

Headroom se ejecuta como un proxy en el puerto 8787 de la máquina del desarrollador. Se envuelve la CLI del LLM con el comando headroom wrap, por ejemplo:

headroom wrap codex

Analiza toda la entrada (historial de conversación, registros, salidas de herramientas, archivos, fragmentos de RAG) y aplica una compresión sin pérdidas y reversible. Es especialmente eficaz reduciendo:

Registros del servidor: descarta el 90%
Salidas de herramientas MCP: 70% de JSON redundante
Salidas de bases de datos: esquemas repetitivos
Árboles de archivos: metadatos repetidos

Desarrollado en Python y Node, la versión actual de Headroom es la v0.22 con 2,000 estrellas en GitHub y 120 bifurcaciones.

Por qué es importante

Chopra se inspiró en una factura de $287 de Claude Sonnet por depuración y refactorización rutinarias. Descubrió que el culpable no eran sus instrucciones, sino el código repetitivo, los esquemas JSON y los metadatos de máquina. "Esto no es prosa. Esto no es escritura creativa. Esto son datos comprimibles disfrazados de texto", escribió.

Por defecto, el TTL de la caché de prefijo de Claude es de solo cinco minutos; tras inactividad, todo el contexto se actualiza. Se puede establecer un TTL más largo, pero se paga el doble por las escrituras para ahorrar un 90% en las lecturas. Headroom evita esas compensaciones.

Alternativas

Existen otras herramientas: RTK (Rust Token Killer) recorta la salida verbosa de comandos, y LeanCTX es una variante. Opciones comerciales como Token Company (financiada por Y Combinator) ofrecen compresión como servicio. Pero la característica clave de Headroom es la compresión reversible y mantenerse dentro del flujo de trabajo del desarrollador.

📖 Lea la fuente completa: HN AI Agents

Project Headroom: La herramienta de código abierto de un ingeniero de Netflix reduce los costos de tokens de IA en un 90%

Cómo funciona

Por qué es importante

Alternativas

👀 Ver también

Gestión Automatizada del Estado de Sesión para la Transferencia de Código de Claude

Implementación del Agente Local OpenClaw con Caché TurboQuant para Hardware de Gama Media

Desarrollador Prueba Qwen3.5 27B frente a Modelos Más Grandes para Tareas de Programación Local

Relay permite que las sesiones de Claude Code se comuniquen entre sí sin cambiar de ventana