【Project Headroom】オープンソースでAIトークンコストを90%削減

NetflixのシニアエンジニアTejas Chopra氏が、LLMにコンテキストが渡される前に圧縮するローカルプロキシProject Headroomをオープンソース化した。初期の見積もりでは、最大90%のトークンが冗長であり、2026年1月以降、このツールは2000億トークンの処理においてユーザーに合計70万ドルの節約をもたらした。

仕組み

Headroomは開発者のマシン上でポート8787のプロキシとして動作する。LLM CLIをheadroom wrapコマンドでラップする（例: headroom wrap codex）。

会話履歴、ログ、ツールの出力、ファイル、RAGチャンクなど、すべての入力を解析し、可逆的でロスレスな圧縮を適用する。特に以下の削減に効果的:

サーバーログ: 90%削減
MCPツール出力: 70%の冗長JSON
データベース出力: 繰り返しのスキーマ
ファイルツリー: 繰り返しのメタデータ

PythonとNodeで構築されたHeadroomの現在のバージョンはv0.22で、GitHubで2,000スター、120フォークを獲得している。

重要性

Chopra氏は、日常的なデバッグとリファクタリングで発生した287ドルのClaude Sonnet請求書に触発された。原因は自身の指示ではなく、ボイラープレート、JSONスキーマ、マシンメタデータであった。「これは散文ではない。これはクリエイティブライティングではない。これはテキストに偽装した圧縮可能なデータだ」と同氏は記している。

デフォルトでは、ClaudeのプレフィックスキャッシュTTLはわずか5分で、非アクティブになるとコンテキスト全体がリフレッシュされる。より長いTTLを設定することもできるが、書き込みに2倍のコストがかかり、読み取りでは90%節約できる。Headroomはそのようなトレードオフを回避する。

代替ツール

他にもツールは存在する:RTK (Rust Token Killer)は冗長なコマンド出力をトリミングし、LeanCTXはそのバリアントである。Token Company（Y Combinator出資）のような商用オプションは、圧縮をサービスとして提供する。しかしHeadroomの主な特徴は可逆圧縮と、開発者のワークフロー内に留まることである。

📖 出典記事: HN AI Agents

プロジェクトヘッドルーム：NetflixエンジニアのオープンソースツールがAIトークンコストを90%削減

仕組み

重要性

代替ツール

👀 See Also

ベンチマーク：24GB Mac MiniでのGemma4 12Bと量子化版Qwen3 8Bの比較

P2PCLAW: AIエージェントが形式的に検証された科学を公開するためのピア・ツー・ピア・ネットワーク

ホークアイアップデートで、スウォーム・オーケストレーション、リモートタスク、ローカルモデルサポートが追加されました。

OpenClaw開発者、AIエージェント向け統合メモリシステムを構築