プロジェクトヘッドルーム:NetflixエンジニアのオープンソースツールがAIトークンコストを90%削減

NetflixのシニアエンジニアTejas Chopra氏が、LLMにコンテキストが渡される前に圧縮するローカルプロキシProject Headroomをオープンソース化した。初期の見積もりでは、最大90%のトークンが冗長であり、2026年1月以降、このツールは2000億トークンの処理においてユーザーに合計70万ドルの節約をもたらした。
仕組み
Headroomは開発者のマシン上でポート8787のプロキシとして動作する。LLM CLIをheadroom wrapコマンドでラップする(例: headroom wrap codex)。
会話履歴、ログ、ツールの出力、ファイル、RAGチャンクなど、すべての入力を解析し、可逆的でロスレスな圧縮を適用する。特に以下の削減に効果的:
- サーバーログ: 90%削減
- MCPツール出力: 70%の冗長JSON
- データベース出力: 繰り返しのスキーマ
- ファイルツリー: 繰り返しのメタデータ
PythonとNodeで構築されたHeadroomの現在のバージョンはv0.22で、GitHubで2,000スター、120フォークを獲得している。
重要性
Chopra氏は、日常的なデバッグとリファクタリングで発生した287ドルのClaude Sonnet請求書に触発された。原因は自身の指示ではなく、ボイラープレート、JSONスキーマ、マシンメタデータであった。「これは散文ではない。これはクリエイティブライティングではない。これはテキストに偽装した圧縮可能なデータだ」と同氏は記している。
デフォルトでは、ClaudeのプレフィックスキャッシュTTLはわずか5分で、非アクティブになるとコンテキスト全体がリフレッシュされる。より長いTTLを設定することもできるが、書き込みに2倍のコストがかかり、読み取りでは90%節約できる。Headroomはそのようなトレードオフを回避する。
代替ツール
他にもツールは存在する:RTK (Rust Token Killer)は冗長なコマンド出力をトリミングし、LeanCTXはそのバリアントである。Token Company(Y Combinator出資)のような商用オプションは、圧縮をサービスとして提供する。しかしHeadroomの主な特徴は可逆圧縮と、開発者のワークフロー内に留まることである。
📖 出典記事: HN AI Agents
👀 See Also

ソース管理されたPRレビューにAIチェックを導入する
Continueは、マークダウンファイルをソース管理されたチェックとして使用し、GitHubのステータスチェックを通じて表示されることで、プルリクエストのワークフローに直接AIチェックを統合します。

RedditユーザーがAIアシスタントから個人の知識をエクスポートするための詳細なプロンプトを共有
Redditユーザーが、AnthropicのChatGPTインポート機能の限界を補うため、ClaudeなどのAIアシスタントから構造化された個人知識を抽出する包括的なプロンプトを作成しました。このプロンプトは、個人知識ベース、知的フレームワーク、知識グラフの3つの異なるJSON成果物を生成します。

Tatu: Claudeのコードブロック内の秘密情報と破壊的コマンドを保護するオープンソースのセキュリティレイヤー
Tatuはオープンソースのフックシステムで、Claude Codeのアクションをリアルタイムで傍受し、漏洩したシークレットをブロックし、PIIにフラグを立て、実行前に破壊的なコマンドを拒否します。インストールはpip/pipxで行い、'tatu-hook init'を実行して監査モードを有効にします。

Ghostbar: 画面共有から隠れる約5MBのネイティブmacOS Swift AIクライアント
GhostbarはネイティブSwift製のmacOSメニューバーAIクライアント(約5MB)で、window.sharingType = .noneを使用して画面録画ツールから見えなくなります。Ollama、vLLM、llama.cpp、およびOpenAI互換のバックエンドで動作します。