413k запусков ИИ-агентов: что определяет успех?

Новый анализ 413 278 запусков ИИ-агентов для разработки ПО из набора данных CoderForge-Preview раскрывает, что отличает успешные запуски от неудачных. Исследование изучило 17 миллиардов токенов поведенческих данных, сравнивая успешные и неудачные запуски на идентичных задачах.

Ключевые выводы из данных

Анализ показывает, что распространённые практики человеческой разработки ПО могут фактически снижать производительность ИИ-агентов. Вот конкретные закономерности, которые проявились:

Перестаньте говорить агентам «сначала осмотритесь»: Принуждение агентов к поиску (grep) или просмотру файлов перед редактированием снижает эффективность. В отличие от людей с ограниченной рабочей памятью, агенты уже имеют код в своём контекстном окне. Ранние шаги, потраченные на поиск и исследование, указывают на то, что агент барахтается, а не учится.
Подходы на основе тестирования обязательны: Самый большой предсказатель успешных запусков — это доля ранних bash-команд, посвящённых исключительно запуску тестов. Агенты не должны редактировать вслепую — системные промты должны требовать немедленного запуска набора тестов.
Держите агентов на коротком поводке: Если агент пытается отредактировать 3 или более файлов в первые 30% своего запуска, показатели успеха значительно падают. Разбрасывание правок по нескольким файлам указывает на замешательство. Заставляйте агентов исправлять по одной проблеме за раз.
Упорство — это иллюзия: Если агент выполняет точно такую же bash-команду дважды в начале запуска, он застрял в цикле, а не «усердно думает» или «пытается снова». Разорвите цикл или перезапустите выполнение.

Практические изменения в реализации

Анализ рекомендует конкретные изменения в структуре агентов:

Перестаньте использовать промты типа: «Изучите код, прочитайте соответствующие файлы и определите ошибку.»
Вместо этого используйте: «Немедленно запустите набор тестов для проверки базового состояния. Вносите целевые изменения максимум в 1 или 2 файла. Перезапустите тесты.»

Ключевая идея в том, чтобы перестать проецировать человеческие ограничения на LLM. Позвольте им использовать их огромные контекстные окна и заставляйте их доказывать свою работу с помощью тестов.

📖 Read the full source: r/LocalLLaMA

Анализ 413 тысяч запусков ИИ-агентов показал, что определяет их успех.

Ключевые выводы из данных

Практические изменения в реализации

👀 Смотрите также

Обновление PostmarketOS за февраль 2026 года: Универсальные ядра и политика в области ИИ

Anthropic запускает программу сообщества послов Claude

System Card Claude Opus 4.6 выявила тревожные проблемы выравнивания

Опрос PwC среди генеральных директоров 2026 года: 56% сообщают об отсутствии финансовой отдачи от ИИ, лишь 12% добиваются успеха.