エージェントフレームワークのトークン肥大化：500:1入力出力比率の実態

マルチプロバイダールーティングを使用したセルフホストのTelegramベースのAIエージェントを実行しているRedditユーザーが、極端な入力対出力トークン比に気付きました：メッセージあたり約21kの入力トークンに対し50～200の出力トークンで、比率は100:1から500:1。内訳：ツール定義約13kトークン、システムプロンプト約5k、メモリ/コンテキストファイル約3k、ユーザーメッセージ100トークン未満。

これは正常ですか？

コミュニティの反応は、LangChainやAutoGPTのようなエージェントフレームワークでは15～25kのベースラインコンテキストが標準であることを確認しています。高い比率は実際のツールアクセスを持つ構造上のものです。主な推奨事項：

安価なプライマリモデル — 肥大化してもコストは一定範囲に抑えられる
プロンプトキャッシング — アクティブセッションでは節約になるが、TTLが5分のためアイドル期間をまたぐと効果が限定的
支出上限 — 安価なモデルでも必須のガードレール

緩和戦略

ユーザーは2つのアプローチについて議論：意図に基づいてメッセージごとにツール定義をトリミングする（動的ツール選択）か、肥大化を受け入れてキャッシングに頼るか。ベンチマークによると、スケールで構築する場合を除き、フレームワークをフォークしてオーバーヘッドを削減する必要性はほとんどない。コンセンサス：21kのコンテキストはエージェントフレームワークの「ビジネスコスト」である。

📖 全文ソース： r/openclaw

エージェントフレームワークのトークン肥大化：500：1の入出力比率が正常

これは正常ですか？

緩和戦略

👀 See Also

新しいマルチプレイヤーゲームでAIボットをコーディングして人間と対戦させる

AIエージェントの失敗に関する論考：謝罪は修正ではなく、アーキテクチャである

$200最大プランにおけるClaudeのレート制限を回避する実践的戦略

Claude Codeをオートコンプリートのように使うのはやめよう：リポジトリを認識したリファクタリングで得られる真の成果