CALでClaude APIトークン83%削減：オープンソースコンテキスト最適化

CALの機能

CALは、既存のコードとLLM API呼び出しの間に位置するPythonライブラリで、各リクエストに対してコンテキストをインテリジェントに選択、圧縮、組み立てます。トークン使用量の多いエージェント設定におけるコストとコンテキストの問題に対処し、特に最近のClaude Pro/Maxサブスクリプションの変更に関連しています。

パフォーマンスベンチマーク

Claude Opus 4と103のコンテキストチャンクを使用した本番環境での結果：

CALなし：すべてのリクエストで103チャンクすべて（約23,000トークン）を送信し、1リクエストあたり$0.043
CALあり：約6チャンク、4,100トークンに減少し、1リクエストあたり$0.008
結果：トークン83％削減、コスト81％削減

5,000のWildChatプロンプト（57言語にわたる実際のLLM会話のオープンアカデミックデータセット）に対して検証され、平均97.6％の節約を実現。

主な機能

セレクター： IDF加重スコアリングにより、クエリごとに関連するチャンクのみを選択。安定したプレフィックスとリクエストごとに動的に選択されるチャンクを使用。
ツールスタブ： 3段階のレイジーローディングを実装し、モデルが特定のツールを使用する意図を示すまで軽量なスタブを使用。
コストエンジン： プロバイダーを認識する節約計算機で、Anthropicの4つの入力階層とGoogleのキャッシュストレージ価格を把握。
ノイズ抑制： IDFフロアとrequire-anyゲートにより、一般的な単語がすべてのリクエストで無関係なチャンクをロードするのを防止。
キャッシュ安定順序付け： 選択にはスコアのみを使用し、位置はアルファベット順でキャッシュヒットを維持。