Исследование ETH Zurich ставит под сомнение ценность файлов AGENTS.md для ИИ-агентов в программировании

Результаты исследования файлов AGENTS.md
Новая статья исследователей из ETH Zurich ставит под сомнение широко распространенную в отрасли практику использования файлов AGENTS.md с ИИ-агентами для программирования. Исследование, проведенное Тибодом Глоагеном, Нильсом Мюндлером, Марком Мюллером, Веселином Райчевым и Мартином Вечевым, предоставляет эмпирические доказательства того, что эти контекстные файлы часто скорее мешают, чем помогают ИИ-агентам.
Методология и тестирование
Команда создала AGENTbench — новый набор данных из 138 реальных задач на Python, взятых из нишевых репозиториев, чтобы избежать смещения из-за популярных бенчмарков, таких как SWE-bench, которые ИИ-модели могли запомнить. Они протестировали четырех агентов: Claude 3.5 Sonnet, Codex GPT-5.2, GPT-5.1 mini и Qwen Code в трех сценариях:
- Без контекстного файла
- LLM-сгенерированный файл AGENTS.md
- Файл AGENTS.md, написанный человеком
Производительность измерялась с помощью трех косвенных показателей: процент успешного выполнения задач (определяемый модульными тестами репозитория), количество шагов агента и общие затраты на вывод.
Ключевые результаты
Контекстные файлы, сгенерированные LLM, ухудшали производительность, снижая процент успешного выполнения задач в среднем на 3% по сравнению с отсутствием контекстного файла. Эти файлы постоянно увеличивали количество шагов, которые предпринимали агенты, что приводило к росту затрат на вывод более чем на 20%.
Файлы, написанные человеком, показали незначительное улучшение со средним увеличением процента успешного выполнения задач на AGENTbench на 4%, но это сопровождалось аналогичным увеличением количества шагов, что повышало затраты до 19%.
Включение обзоров архитектуры или объяснений структуры репозитория в файлы AGENTS.md не сокращало время, которое модели тратили на поиск соответствующих файлов для задач.
Анализ поведения
Анализ трассировок показал, что агенты, как правило, следовали инструкциям в файлах AGENTS.md, что заставляло их запускать больше тестов, читать больше файлов, выполнять больше поисков с помощью grep и проводить больше проверок качества кода. Хотя такое поведение было тщательным, оно часто было излишним для решения конкретных задач, заставляя модели рассуждений «думать» усерднее, не приводя к лучшим итоговым исправлениям.
Практические рекомендации
Исследователи рекомендуют полностью отказаться от контекстных файлов, сгенерированных LLM, и ограничить инструкции, написанные человеком, невыводимыми деталями, такими как высокоспециализированные инструменты или пользовательские команды сборки. Они отмечают, что хотя 60 000 репозиториев с открытым исходным кодом в настоящее время содержат контекстные файлы, такие как AGENTS.md, и многие фреймворки для агентов имеют встроенные команды для их автоматической генерации, эти файлы оказывают лишь незначительное влияние на поведение агентов.
📖 Read the full source: HN AI Agents
👀 Смотрите также

Разработчики эмулятора PS3 просят прекратить отправку PR, сгенерированных ИИ
Мейнтейнеры RPCS3 публично попросили пользователей прекратить отправлять пул-реквесты, созданные AI-агентами кода, ссылаясь на низкое качество и нагрузку на поддержку.

约束衰减:为什么LLM代理在后端结构化代码中失败
Новое исследование вводит понятие «ограничительного затухания»: по мере накопления структурных требований производительность LLM-агентов резко падает — способные агенты теряют 30 пунктов в проценте прохождения утверждений, слабые приближаются к нулю. Практические выводы для всех, кто использует AI-агентов для написания кода.

Риски судебных разбирательств в структурах финансирования центров обработки данных на основе ИИ
Строительство центров обработки данных для ИИ потребует инвестиций в инфраструктуру на сумму 5,2 триллиона долларов к 2030 году. Компании используют сложные финансовые структуры, такие как СПВ и обеспеченные GPU-оборудованием объекты, которые создают девять категорий судебных рисков.

Anthropic приостанавливает изменение кредитов для Claude Code – Agent SDK остается по подписке
Anthropic приостанавливает перенос Agent SDK, claude -p и сторонних приложений на отдельный ежемесячный кредит. Использование продолжается в рамках существующих лимитов подписки.