チューリッヒ工科大学の研究、AIコーディングエージェントにおけるAGENTS.mdファイルの価値に疑問を投げかける

AGENTS.mdファイルに関する研究結果
ETHチューリッヒの研究者による新たな論文は、AIコーディングエージェントでAGENTS.mdファイルを使用する業界の一般的な慣行に疑問を投げかけています。Thibaud Gloaguen、Niels Mündler、Mark Müller、Veselin Raychev、Martin Vechevによるこの研究は、これらのコンテキストファイルがAIエージェントを支援するどころか、むしろ妨げることが多いという実証的証拠を提供しています。
方法論とテスト
研究チームは、AIモデルが記憶している可能性のあるSWE-benchのような人気ベンチマークからの偏りを避けるため、ニッチなリポジトリから収集した138の実世界Pythonタスクからなる新規データセットAGENTbenchを構築しました。以下の3つのシナリオで4つのエージェントをテストしました:
- コンテキストファイルなし
- LLM生成のAGENTS.mdファイル
- 人間作成のAGENTS.mdファイル
パフォーマンスは、タスク成功率(リポジトリの単体テストで判定)、エージェントのステップ数、総推論コストの3つの代理指標で測定されました。
主な結果
LLM生成のコンテキストファイルはパフォーマンスを低下させ、コンテキストファイルなしの場合と比較してタスク成功率が平均3%減少しました。これらのファイルは一貫してエージェントのステップ数を増加させ、推論コストを20%以上押し上げました。
人間作成のファイルは、AGENTbenchでタスク成功率が平均4%向上するというわずかな改善を示しましたが、これにはステップ数の並行増加が伴い、コストを最大19%増加させました。
AGENTS.mdファイルにアーキテクチャ概要やリポジトリ構造の説明を含めても、モデルがタスクに関連するファイルを見つけるのに費やす時間は減少しませんでした。
行動分析
トレース分析により、エージェントは一般的にAGENTS.mdファイルの指示に従い、より多くのテストを実行し、より多くのファイルを読み込み、より多くのgrep検索を実行し、より多くのコード品質チェックを行うことが明らかになりました。この行動は徹底的ではあるものの、特定のタスクを解決するためにはしばしば不要であり、推論モデルに「より深く考え」させながらも、より良い最終パッチを生み出すことはありませんでした。
実用的な推奨事項
研究者は、LLM生成のコンテキストファイルを完全に除外し、人間作成の指示を、高度に特定されたツーリングやカスタムビルドコマンドなど、推論不可能な詳細に限定することを推奨しています。現在6万のオープンソースリポジトリにAGENTS.mdのようなコンテキストファイルが含まれており、多くのエージェントフレームワークにはこれらを自動生成する組み込みコマンドが備わっていますが、これらのファイルはエージェントの行動にわずかな影響しか与えないと指摘しています。
📖 全文を読む: HN AI Agents
👀 See Also

Telegramチャットのコンテキストウィンドウに含まれるファイルの調査
Telegramチャットのコンテキストウィンドウに含まれるファイルを理解することで、操作知識を向上させましょう。

完全AI工程师:不再触碰代码
Max Heyerは、エージェントがすべてのコードを書き、自分はdiffを読んで仕様を書き、レビューするだけというワークフローを説明しています。重要なスキルはテイスト(味覚)であり、コードを評価することは書くことよりも難しいと述べています。

PS3エミュレータ開発者、AI生成のPRを送らないよう要請
RPCS3のメンテナーは、AIコードエージェントによって生成されたプルリクエストの提出をユーザーに控えるよう公に要請しました。品質の低さとメンテナンスの負担が理由です。

オープンクロー・ゲートウェイの信頼性問題:25日間の過酷な使用後のサイレント障害
OpenClawユーザーが18以上のcronジョブとTelegram統合で約25日間システムを毎日実行した詳細なレポートにより、ゲートウェイが「ゾンビ化」状態に入る重要なパターンが特定されました。この状態では、実行中と表示されるものの、すべての機能が停止します。ユーザーは、セッション書き込みロックが無期限に保持される、cronジョブが幽霊的な実行状態で固まる、無効な構成でサイレント障害が発生するなどの具体的な問題を文書化しています。