エージェントフレームワークのトークン浪費：35万トークン/セッションを95%削減する方法

トークン浪費ベンチマーク結果

ローカルQwen 3.5 122Bセットアップでの測定により、エージェントフレームワークが静的ファイルを繰り返し再送信することで、セッションごとに35万トークン以上を浪費していることが明らかになりました。ソースではこれらの数値を「非現実的」と表現しています。

最適化アプローチ

クエリコンテキストを1,373トークンからわずか73トークンに削減するコンパイル時アプローチが発見されました。これは、この特定のコンテキストにおけるトークン使用量の95%削減を意味します。

ベンチマークではまた、単純なJSON変換が問題を30%悪化させ、ベースライン測定値を超えるトークン浪費を引き起こすことも判明しました。

技術的コンテキスト

エージェントフレームワークには通常、システムプロンプト、ツール定義、およびセッション内の複数のインタラクションを通じて静的に維持されるその他の設定データが含まれています。このデータがすべてのクエリで再送信されると、モデルに新しい情報を提供することなくトークンを消費します。これは、トークン処理がパフォーマンスとコストの両方に直接影響するQwen 3.5 122Bのような大規模モデルでは特にコストがかかります。

コンパイル時アプローチでは、静的要素を再送信するのではなく参照できるように前処理を行う可能性が高く、これは現代のWebアプリケーションが静的アセットをキャッシュする方法と似ています。AIコーディングエージェントを扱う開発者にとって、このオーバーヘッドを削減することで応答時間を大幅に改善し、運用コストを削減できます。

📖 Read the full source: r/LocalLLaMA

エージェントフレームワークは、静的ファイルを再送信するたびにセッションごとに35万以上のトークンを浪費しています。

トークン浪費ベンチマーク結果

最適化アプローチ

技術的コンテキスト

👀 See Also

ACOシステム：GitHub IssueからマージされたPRへのマルチエージェントAIパイプライン

MegaClaw：PlaywrightとHomebrewを活用したコンテナ化されたOpenClawセットアップ

フェムトボット：低リソース環境向けの効率的なRustエージェント

Claude Code v2.1.76 システムプロンプトの更新：セキュリティモニターの改良と新フックイベント