Исследование ETH Zurich ставит под сомнение ценность файлов AGENTS.md для ИИ-агентов в программировании

✍️ OpenClawRadar📅 Опубликовано: 8 марта 2026 г.🔗 Source

Результаты исследования файлов AGENTS.md

Новая статья исследователей из ETH Zurich ставит под сомнение широко распространенную в отрасли практику использования файлов AGENTS.md с ИИ-агентами для программирования. Исследование, проведенное Тибодом Глоагеном, Нильсом Мюндлером, Марком Мюллером, Веселином Райчевым и Мартином Вечевым, предоставляет эмпирические доказательства того, что эти контекстные файлы часто скорее мешают, чем помогают ИИ-агентам.

Методология и тестирование

Команда создала AGENTbench — новый набор данных из 138 реальных задач на Python, взятых из нишевых репозиториев, чтобы избежать смещения из-за популярных бенчмарков, таких как SWE-bench, которые ИИ-модели могли запомнить. Они протестировали четырех агентов: Claude 3.5 Sonnet, Codex GPT-5.2, GPT-5.1 mini и Qwen Code в трех сценариях:

Без контекстного файла
LLM-сгенерированный файл AGENTS.md
Файл AGENTS.md, написанный человеком

Производительность измерялась с помощью трех косвенных показателей: процент успешного выполнения задач (определяемый модульными тестами репозитория), количество шагов агента и общие затраты на вывод.

Ключевые результаты

Контекстные файлы, сгенерированные LLM, ухудшали производительность, снижая процент успешного выполнения задач в среднем на 3% по сравнению с отсутствием контекстного файла. Эти файлы постоянно увеличивали количество шагов, которые предпринимали агенты, что приводило к росту затрат на вывод более чем на 20%.

Файлы, написанные человеком, показали незначительное улучшение со средним увеличением процента успешного выполнения задач на AGENTbench на 4%, но это сопровождалось аналогичным увеличением количества шагов, что повышало затраты до 19%.

Включение обзоров архитектуры или объяснений структуры репозитория в файлы AGENTS.md не сокращало время, которое модели тратили на поиск соответствующих файлов для задач.

Анализ поведения

Анализ трассировок показал, что агенты, как правило, следовали инструкциям в файлах AGENTS.md, что заставляло их запускать больше тестов, читать больше файлов, выполнять больше поисков с помощью grep и проводить больше проверок качества кода. Хотя такое поведение было тщательным, оно часто было излишним для решения конкретных задач, заставляя модели рассуждений «думать» усерднее, не приводя к лучшим итоговым исправлениям.

Практические рекомендации

Исследователи рекомендуют полностью отказаться от контекстных файлов, сгенерированных LLM, и ограничить инструкции, написанные человеком, невыводимыми деталями, такими как высокоспециализированные инструменты или пользовательские команды сборки. Они отмечают, что хотя 60 000 репозиториев с открытым исходным кодом в настоящее время содержат контекстные файлы, такие как AGENTS.md, и многие фреймворки для агентов имеют встроенные команды для их автоматической генерации, эти файлы оказывают лишь незначительное влияние на поведение агентов.

📖 Read the full source: HN AI Agents

👀 Смотрите также

Новости

Разработчики эмулятора PS3 просят прекратить отправку PR, сгенерированных ИИ

Мейнтейнеры RPCS3 публично попросили пользователей прекратить отправлять пул-реквесты, созданные AI-агентами кода, ссылаясь на низкое качество и нагрузку на поддержку.

11 мая 2026 г., 02:17 UTC

OpenClawRadar

Новости

约束衰减：为什么LLM代理在后端结构化代码中失败

Новое исследование вводит понятие «ограничительного затухания»: по мере накопления структурных требований производительность LLM-агентов резко падает — способные агенты теряют 30 пунктов в проценте прохождения утверждений, слабые приближаются к нулю. Практические выводы для всех, кто использует AI-агентов для написания кода.

26 мая 2026 г., 00:18 UTC

OpenClawRadar

Новости

Риски судебных разбирательств в структурах финансирования центров обработки данных на основе ИИ

Строительство центров обработки данных для ИИ потребует инвестиций в инфраструктуру на сумму 5,2 триллиона долларов к 2030 году. Компании используют сложные финансовые структуры, такие как СПВ и обеспеченные GPU-оборудованием объекты, которые создают девять категорий судебных рисков.

1 апр. 2026 г., 01:45 UTC

OpenClawRadar

Новости

Anthropic приостанавливает изменение кредитов для Claude Code – Agent SDK остается по подписке

Anthropic приостанавливает перенос Agent SDK, claude -p и сторонних приложений на отдельный ежемесячный кредит. Использование продолжается в рамках существующих лимитов подписки.

16 июн. 2026 г., 00:20 UTC

OpenClawRadar