ETHチューリッヒ研究:過剰なコンテキストはAIコーディングエージェントの性能を低下させる

ETHチューリッヒの最近の研究は、AIコーディングエージェントにとって、より多くのコンテキストが必ずしも優れたパフォーマンスを意味するわけではないという具体的な証拠を提供しています。この研究では、4つのコーディングエージェントを138の実際のGitHubタスクでテストし、明確な定量的結果が得られました。
主な発見
研究では、LLMが生成したコンテキストファイルは実際にタスクの成功率を2〜3%低下させ、推論コストを20%増加させたことが明らかになりました。人間が書いたコンテキストファイルでさえ、成功率は約4%しか向上せず、コストは依然として大幅に増加しました。
核心的な問題
研究者は、エージェントがコンテキストファイル内のすべての指示を実行しなければならないものとして扱っていることを発見しました。ある実験では、リポジトリを生成されたコンテキストファイルのみに絞り込んだところ、パフォーマンスが再び向上しました。これは、エージェントが本質的な指示と無関係な履歴情報を区別するのに苦労していることを示しています。
実用的な推奨事項
研究では、エージェントが自力では発見できない情報のみを含め、コンテキストを最小限に保つことを推奨しています。これは特に、電子メールスレッドのようなコミュニケーションデータに関連しており、コンテキストのように見えても、実際には履歴ノイズとして解釈されることが多いためです。
コンテキストAPIソリューション
この問題に対処するため、研究者は電子メール処理に焦点を当てたコンテキストAPI(iGPT)を開発しました。このAPIは以下の機能を提供します:
- コンテキストがモデルに到達する前に、電子メールスレッドを会話グラフに再構築します
- 引用テキストを重複排除します
- 誰が何をいつ言ったかを検出します
- 生のテキストではなく、構造化されたJSONを返します
このアプローチにより、エージェントは会話履歴全体ではなく、フィルタリングされたコンテキストを受け取り、関連する情報に集中する能力が向上します。
📖 全文を読む: r/LocalLLaMA
👀 See Also

アンソピック、新規ユーザー向けプロ契約からClaude Codeをテスト的に除外
Anthropicは、新規ユーザー向けの月額20ドルのProサブスクリプションプランからClaude Codeへのアクセスを一時的に削除し、ウェブサイトの価格ページとサポートドキュメントを変更した後、変更を元に戻しました。同社はこれを「新規プロシューマー登録の2%を対象とした小規模テスト」と説明しました。

AIメモ作成に同意しない新規患者を受け入れないメルボルンの精神科医
メルボルンの精神科医が新規患者に対し、セッションのAI文字起こしに同意するか、他の医療機関を紹介されるかを求めるようになり、データセキュリティと正確性への懸念が生じている。

Anthropicのクロード神話:恐怖マーケティングか現実のリスクか
Anthropicは、自社のClaude Mythosモデルがサイバーセキュリティのバグ発見において人間の専門家を凌駕すると主張しているが、批評家は、同社の破局的な警告は、現在の害悪から注意をそらし、規制当局を味方につけるためのマーケティング戦略に過ぎないと論じている。

OpenAI、GPT-5.3-Codex-Sparkをリサーチプレビューで公開
OpenAIはGPT-5.3-Codex-Sparkを研究プレビューとして発表し、より高速な開発能力を約束しています。