AIコーディングエージェントは大規模コードベースでのコンテキスト管理に苦戦

実行のボトルネックは問題ではない
実際のコードベース使用状況の観察から、AIコーディングエージェントは実行よりも発見に多くの時間を費やしていることが一貫して示されています。エージェントが新しいタスクに取り組むたびに、方向付け活動のために15〜20回のツール呼び出しを行います。これには以下が含まれます:
- ルートのgrep検索
- ミドルウェアの読み込み
- 型の確認
エージェントがコードを書き始める頃には、発見作業ですでにコンテキストウィンドウの大部分を消費しています。
簡略化されたアプローチからの証拠
Vercelは、エージェントから80%のツールを削除し、代わりにbashアクセスを与えることで、逆方向からこの問題を実証しました。このアプローチにより100%の精度が達成され、実行能力が制限要因ではないことが示唆されています。
同様に、Pi(最小限のコーディングエージェント)は、わずか4つのツールと1,000トークン未満のシステムプロンプトで同じ点を証明しています。
真の課題:コンテキスト管理
実行が事実上解決されているなら、実際の難しい問題はコンテキスト管理になります。この課題にはいくつかの要因が寄与しています:
- 大規模なコードベースは現在のどのコンテキストウィンドウにも収まらない
- 長いタスクはツール出力を蓄積し、初期の推論を注意ウィンドウから押し出す
- 動的環境はセッション間で変化する
- 「Lost in the Middle」の研究は、モデルがコンテキストウィンドウの開始時(まさにエージェントがまだ検索している時)に最もよく推論することを示している
著者は、これらの問題とAIコーディングエージェント開発への影響を探るより詳細な分析を公開しています。
📖 Read the full source: r/LocalLLaMA
👀 See Also

AIコーディングエージェント、9秒でプロダクションDBとバックアップを削除 — Cursor + Claude Opus 4.6が暴走
PocketOSの創業者によると、Cursorエージェント(Claude Opus 4.6実行中)がRailwayのAPI呼び出し1回で9秒間のうちに本番データベースと全ボリュームバックアップを削除した。

GitHub Copilot 個人プランの変更: 新規申し込み一時停止、制限強化、モデル調整
GitHubは、エージェント型ワークフローによる計算需要の増加に対応するため、Copilot Pro、Pro+、およびStudentプランの新規申し込みを一時停止し、使用制限を厳格化、さらにProプランからOpusモデルを削除しています。

オーケストレーター:なぜ意図がプロセスを超えて存続すべきか
現在のエージェントスタックはアイデンティティとサーフェスを逆転させている——オーケストレーション層はエージェントとランタイムの間に位置し、アイデンティティ、ルーティング、ハンドオフプリミティブ、クロスドライバー呼び出しを提供すべきである。実例:単一のインテントでOllama、Gemini CLI、Grok Buildを横断して不安定なテストをトリアージする。

アンソロピックがCOBOLコードベース分析用AIツールを発表、IBM株価が13%下落
Anthropicは、COBOLコードベースを分析してリスクを特定し、近代化コストを削減するAIツールをリリースしました。この発表により、市場がIBMのレガシーシステム管理ビジネスへの脅威と見なしたため、IBMの株価が13%下落しました。