AIコーディングエージェントにAGENTS.mdは不要？ETH研究の衝撃結果

AGENTS.mdファイルに関する研究結果

ETHチューリッヒの研究者による新たな論文は、AIコーディングエージェントでAGENTS.mdファイルを使用する業界の一般的な慣行に疑問を投げかけています。Thibaud Gloaguen、Niels Mündler、Mark Müller、Veselin Raychev、Martin Vechevによるこの研究は、これらのコンテキストファイルがAIエージェントを支援するどころか、むしろ妨げることが多いという実証的証拠を提供しています。

方法論とテスト

研究チームは、AIモデルが記憶している可能性のあるSWE-benchのような人気ベンチマークからの偏りを避けるため、ニッチなリポジトリから収集した138の実世界Pythonタスクからなる新規データセットAGENTbenchを構築しました。以下の3つのシナリオで4つのエージェントをテストしました：

コンテキストファイルなし
LLM生成のAGENTS.mdファイル
人間作成のAGENTS.mdファイル

パフォーマンスは、タスク成功率（リポジトリの単体テストで判定）、エージェントのステップ数、総推論コストの3つの代理指標で測定されました。

主な結果

LLM生成のコンテキストファイルはパフォーマンスを低下させ、コンテキストファイルなしの場合と比較してタスク成功率が平均3%減少しました。これらのファイルは一貫してエージェントのステップ数を増加させ、推論コストを20%以上押し上げました。

人間作成のファイルは、AGENTbenchでタスク成功率が平均4%向上するというわずかな改善を示しましたが、これにはステップ数の並行増加が伴い、コストを最大19%増加させました。

AGENTS.mdファイルにアーキテクチャ概要やリポジトリ構造の説明を含めても、モデルがタスクに関連するファイルを見つけるのに費やす時間は減少しませんでした。

行動分析

トレース分析により、エージェントは一般的にAGENTS.mdファイルの指示に従い、より多くのテストを実行し、より多くのファイルを読み込み、より多くのgrep検索を実行し、より多くのコード品質チェックを行うことが明らかになりました。この行動は徹底的ではあるものの、特定のタスクを解決するためにはしばしば不要であり、推論モデルに「より深く考え」させながらも、より良い最終パッチを生み出すことはありませんでした。

実用的な推奨事項

研究者は、LLM生成のコンテキストファイルを完全に除外し、人間作成の指示を、高度に特定されたツーリングやカスタムビルドコマンドなど、推論不可能な詳細に限定することを推奨しています。現在6万のオープンソースリポジトリにAGENTS.mdのようなコンテキストファイルが含まれており、多くのエージェントフレームワークにはこれらを自動生成する組み込みコマンドが備わっていますが、これらのファイルはエージェントの行動にわずかな影響しか与えないと指摘しています。

📖 全文を読む： HN AI Agents