Project Headroom: La herramienta de código abierto de un ingeniero de Netflix reduce los costos de tokens de IA en un 90%

✍️ OpenClawRadar📅 Publicado: 2 de junio de 2026🔗 Source
Project Headroom: La herramienta de código abierto de un ingeniero de Netflix reduce los costos de tokens de IA en un 90%
Ad

Tejas Chopra, ingeniero senior de Netflix, lanzó como código abierto Project Headroom, un proxy local que comprime la entrada de la ventana de contexto antes de que llegue al LLM. Las estimaciones iniciales indican que hasta un 90% de los tokens son redundantes y, desde enero de 2026, la herramienta ha ahorrado a los usuarios un total de $700,000 en 200 mil millones de tokens.

Cómo funciona

Headroom se ejecuta como un proxy en el puerto 8787 de la máquina del desarrollador. Se envuelve la CLI del LLM con el comando headroom wrap, por ejemplo:

headroom wrap codex

Analiza toda la entrada (historial de conversación, registros, salidas de herramientas, archivos, fragmentos de RAG) y aplica una compresión sin pérdidas y reversible. Es especialmente eficaz reduciendo:

  • Registros del servidor: descarta el 90%
  • Salidas de herramientas MCP: 70% de JSON redundante
  • Salidas de bases de datos: esquemas repetitivos
  • Árboles de archivos: metadatos repetidos

Desarrollado en Python y Node, la versión actual de Headroom es la v0.22 con 2,000 estrellas en GitHub y 120 bifurcaciones.

Ad

Por qué es importante

Chopra se inspiró en una factura de $287 de Claude Sonnet por depuración y refactorización rutinarias. Descubrió que el culpable no eran sus instrucciones, sino el código repetitivo, los esquemas JSON y los metadatos de máquina. "Esto no es prosa. Esto no es escritura creativa. Esto son datos comprimibles disfrazados de texto", escribió.

Por defecto, el TTL de la caché de prefijo de Claude es de solo cinco minutos; tras inactividad, todo el contexto se actualiza. Se puede establecer un TTL más largo, pero se paga el doble por las escrituras para ahorrar un 90% en las lecturas. Headroom evita esas compensaciones.

Alternativas

Existen otras herramientas: RTK (Rust Token Killer) recorta la salida verbosa de comandos, y LeanCTX es una variante. Opciones comerciales como Token Company (financiada por Y Combinator) ofrecen compresión como servicio. Pero la característica clave de Headroom es la compresión reversible y mantenerse dentro del flujo de trabajo del desarrollador.

📖 Lea la fuente completa: HN AI Agents

Ad

👀 Ver también

Quiver: Una GUI para Gestionar y Sincronizar Habilidades de Código de Claude
Herramientas

Quiver: Una GUI para Gestionar y Sincronizar Habilidades de Código de Claude

Quiver es una herramienta GUI gratuita y de código abierto que proporciona una interfaz web para gestionar las habilidades de Claude Code, permitiendo a los usuarios explorar habilidades locales y complementos del mercado, editar archivos SKILL.md, sincronizar mediante Git e instalar habilidades sin usar la terminal.

OpenClawRadar
Tabla de clasificación de modelos votada por la comunidad para OpenClaw lanzada.
Herramientas

Tabla de clasificación de modelos votada por la comunidad para OpenClaw lanzada.

Un nuevo ranking votado por la comunidad para modelos compatibles con OpenClaw ya está disponible, con Opus 4.5 actualmente a la cabeza.

OpenClawRadar
Toothcomb: Verificador de hechos de voz en tiempo real de código abierto creado con las API de Claude Opus y Sonnet
Herramientas

Toothcomb: Verificador de hechos de voz en tiempo real de código abierto creado con las API de Claude Opus y Sonnet

Toothcomb es una herramienta de código abierto que toma una transcripción de un discurso, verifica afirmaciones, detecta falacias lógicas y lenguaje manipulativo usando la API de Claude Opus, y admite transmisión en tiempo real desde el micrófono.

OpenClawRadar
iai-mcp: un demonio local le proporciona a Claude memoria persistente entre sesiones con un 99% de acierto
Herramientas

iai-mcp: un demonio local le proporciona a Claude memoria persistente entre sesiones con un 99% de acierto

iai-mcp es un demonio local de código abierto que captura cada conversación de Claude, la organiza en tres niveles de memoria y retroalimenta el contexto en nuevas sesiones. Logra >99% de recuerdo textual, recuperación en menos de 100ms y un costo de inicio de sesión inferior a 3,000 tokens.

OpenClawRadar