Project Headroom: Open-Source-Tool eines Netflix-Ingenieurs senkt KI-Token-Kosten um 90%

Netflix-Senioringenieur Tejas Chopra hat Project Headroom als Open Source veröffentlicht, einen lokalen Proxy, der die Kontextfenster-Eingabe komprimiert, bevor sie das LLM erreicht. Ersten Schätzungen zufolge sind bis zu 90% der Token redundant — und seit Januar 2026 hat das Tool den Nutzern insgesamt 700.000 US-Dollar bei 200 Milliarden Token gespart.
So funktioniert es
Headroom läuft als Proxy auf Port 8787 auf dem Entwicklerrechner. Sie umschließen Ihr LLM-CLI mit dem Befehl headroom wrap, z.B.:
headroom wrap codexEs analysiert alle Eingaben – Gesprächsverlauf, Logs, Toolausgaben, Dateien, RAG-Chunks – und wendet eine verlustfreie, reversible Komprimierung an. Am besten reduziert es:
- Server-Logs: 90% werden verworfen
- MCP-Toolausgaben: 70% redundantes JSON
- Datenbankausgaben: sich wiederholende Schemata
- Dateibäume: wiederholte Metadaten
Headroom ist in Python und Node entwickelt, die aktuelle Version ist v0.22 mit 2.000 GitHub-Sternen und 120 Forks.
Warum es wichtig ist
Chopra wurde von einer 287-Dollar-Claude-Sonnet-Rechnung für routinemäßiges Debugging und Refactoring inspiriert. Er fand heraus, dass der Übeltäter nicht seine Anweisungen waren – es waren Boilerplate, JSON-Schemata und Maschinenmetadaten. „Das ist keine Prosa. Das ist kein kreatives Schreiben. Das sind komprimierbare Daten, die sich als Text tarnen“, schrieb er.
Standardmäßig beträgt die TTL des Claude-Präfix-Cache nur fünf Minuten; bei Inaktivität wird der gesamte Kontext aktualisiert. Sie können eine längere TTL einstellen, zahlen dann aber das Doppelte für Schreibvorgänge, um 90% bei Lesevorgängen zu sparen. Headroom umgeht diese Kompromisse.
Alternativen
Es gibt andere Tools: RTK (Rust Token Killer) kürzt ausführliche Befehlsausgaben, und LeanCTX ist eine Variante. Kommerzielle Optionen wie Token Company (von Y Combinator finanziert) bieten Compression-as-a-Service. Aber Headrooms Hauptmerkmal ist die reversible Komprimierung und der Verbleib im Workflow des Entwicklers.
📖 Vollständige Quelle lesen: HN AI Agents
👀 Siehe auch

Open-Source-CLI zum Komprimieren großer Java/Spring-Monorepos für Claude
Das CLI-Tool sourcecode reduziert ein Java/Spring-Monorepo mit ~4.000 Dateien von ~3M Tokens auf 1.700 Tokens (Compact-Modus). Der Fokus liegt derzeit auf Kontextkompression, Git-Hotspot-Erkennung und Symbolsuche.

Apideck CLI: Eine Low-Context-Alternative zu MCP für KI-Agenten
Apideck CLI ist eine KI-Agent-Schnittstelle, die etwa 80 Tokens für ihren Agenten-Prompt verwendet, anstatt Zehntausende für Werkzeugschemata, und adressiert damit das Kontextfenster-Verbrauchsproblem von MCP. Benchmarks zeigen, dass MCP für identische Operationen 4- bis 32-mal mehr Tokens kosten kann als die CLI.

Sammlung von 177 OpenClaw SOUL.md-Vorlagen, organisiert in 24 Kategorien
Ein Entwickler hat 177 sofort einsatzbereite SOUL.md-Vorlagen für OpenClaw-Agenten in 24 Kategorien zusammengestellt, darunter Marketing, Entwicklung, Business, DevOps, Finanzen, Kreatives, Daten, Sicherheit, Gesundheit, Recht, Personalwesen und Bildung. Alle Vorlagen sind unter der MIT-Lizenz verfügbar und auf GitHub zu finden.

GLM-5.1 vs MiniMax M2.7: Leistungsvergleich für KI-Coding-Agenten
GLM-5.1 erreicht SWE-bench-Verified 77,8 und Terminal Bench 2.0 56,2 Punkte, die höchsten unter Open-Source-Modellen, während MiniMax M2.7 schnelle Antworten mit niedrigem TTFT und hohem Durchsatz bietet, ideal für CI-Bots und Batch-Bearbeitungen.