エージェントフレームワークは、静的ファイルを再送信するたびにセッションごとに35万以上のトークンを浪費しています。

✍️ OpenClawRadar📅 公開日: April 13, 2026🔗 Source
エージェントフレームワークは、静的ファイルを再送信するたびにセッションごとに35万以上のトークンを浪費しています。
Ad

トークン浪費ベンチマーク結果

ローカルQwen 3.5 122Bセットアップでの測定により、エージェントフレームワークが静的ファイルを繰り返し再送信することで、セッションごとに35万トークン以上を浪費していることが明らかになりました。ソースではこれらの数値を「非現実的」と表現しています。

最適化アプローチ

クエリコンテキストを1,373トークンからわずか73トークンに削減するコンパイル時アプローチが発見されました。これは、この特定のコンテキストにおけるトークン使用量の95%削減を意味します。

ベンチマークではまた、単純なJSON変換が問題を30%悪化させ、ベースライン測定値を超えるトークン浪費を引き起こすことも判明しました。

技術的コンテキスト

エージェントフレームワークには通常、システムプロンプト、ツール定義、およびセッション内の複数のインタラクションを通じて静的に維持されるその他の設定データが含まれています。このデータがすべてのクエリで再送信されると、モデルに新しい情報を提供することなくトークンを消費します。これは、トークン処理がパフォーマンスとコストの両方に直接影響するQwen 3.5 122Bのような大規模モデルでは特にコストがかかります。

コンパイル時アプローチでは、静的要素を再送信するのではなく参照できるように前処理を行う可能性が高く、これは現代のWebアプリケーションが静的アセットをキャッシュする方法と似ています。AIコーディングエージェントを扱う開発者にとって、このオーバーヘッドを削減することで応答時間を大幅に改善し、運用コストを削減できます。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

iai-mcp: セッションをまたいだ持続的なOpenClawメモリのためのローカルデーモン
Tools

iai-mcp: セッションをまたいだ持続的なOpenClawメモリのためのローカルデーモン

iai-mcpは、すべてのOpenClawの会話をキャプチャし、ローカルのニューラル埋め込みとAES-256暗号化を用いて3つのメモリ階層に保存し、新しいセッションで関連するコンテキストをフィードバックするオープンソースのデーモンです。逐語的再現率>99%、検索<100ms、セッション開始時のトークンコスト<3k。

OpenClawRadar
AI知識作業のためのオープンソースSDK
Tools

AI知識作業のためのオープンソースSDK

ClioAIのkw-sdkは、AIエージェントが知識作業を実行するための構造化フレームワークを提供し、タスクブリーフィング、ルーブリック作成、検証を含む自己検証ループを実装しています。

OpenClawRadar
オープンソース化されたClaude Codeプロンプトは、Claudeを使ってリバースエンジニアリングされました。
Tools

オープンソース化されたClaude Codeプロンプトは、Claudeを使ってリバースエンジニアリングされました。

ある開発者が、Claude Codeのソースコードからリバースエンジニアリングした26個のプロンプトをClaude自身を使ってオープンソース化しました。TypeScriptのソースは一時的に公開npmパッケージとして利用可能でしたが、その後削除されました。その間に開発者はコードベース内のすべてのプロンプトを研究し、Claudeを使って一から書き直す作業を支援してもらいました。

OpenClawRadar
Whisper + CLIP + Ollamaを使用したローカルファーストの映画要約パイプライン
Tools

Whisper + CLIP + Ollamaを使用したローカルファーストの映画要約パイプライン

Whisper、CLIP、Ollama、Edge TTS、FFmpegを使用して、ナレーション付きの映画要約動画を自動生成する完全ローカルパイプライン。動画ファイルを投入すると、約15分でナレーション付きの要約が得られます。

OpenClawRadar