Анализ 413 тысяч запусков ИИ-агентов показал, что определяет их успех.

Новый анализ 413 278 запусков ИИ-агентов для разработки ПО из набора данных CoderForge-Preview раскрывает, что отличает успешные запуски от неудачных. Исследование изучило 17 миллиардов токенов поведенческих данных, сравнивая успешные и неудачные запуски на идентичных задачах.
Ключевые выводы из данных
Анализ показывает, что распространённые практики человеческой разработки ПО могут фактически снижать производительность ИИ-агентов. Вот конкретные закономерности, которые проявились:
- Перестаньте говорить агентам «сначала осмотритесь»: Принуждение агентов к поиску (grep) или просмотру файлов перед редактированием снижает эффективность. В отличие от людей с ограниченной рабочей памятью, агенты уже имеют код в своём контекстном окне. Ранние шаги, потраченные на поиск и исследование, указывают на то, что агент барахтается, а не учится.
- Подходы на основе тестирования обязательны: Самый большой предсказатель успешных запусков — это доля ранних bash-команд, посвящённых исключительно запуску тестов. Агенты не должны редактировать вслепую — системные промты должны требовать немедленного запуска набора тестов.
- Держите агентов на коротком поводке: Если агент пытается отредактировать 3 или более файлов в первые 30% своего запуска, показатели успеха значительно падают. Разбрасывание правок по нескольким файлам указывает на замешательство. Заставляйте агентов исправлять по одной проблеме за раз.
- Упорство — это иллюзия: Если агент выполняет точно такую же bash-команду дважды в начале запуска, он застрял в цикле, а не «усердно думает» или «пытается снова». Разорвите цикл или перезапустите выполнение.
Практические изменения в реализации
Анализ рекомендует конкретные изменения в структуре агентов:
- Перестаньте использовать промты типа:
«Изучите код, прочитайте соответствующие файлы и определите ошибку.» - Вместо этого используйте:
«Немедленно запустите набор тестов для проверки базового состояния. Вносите целевые изменения максимум в 1 или 2 файла. Перезапустите тесты.»
Ключевая идея в том, чтобы перестать проецировать человеческие ограничения на LLM. Позвольте им использовать их огромные контекстные окна и заставляйте их доказывать свою работу с помощью тестов.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Изменения в системном промпте Claude Opus 4.7: Переименование платформы, интеграция инструментов и обновления поведения
Anthropic обновила системный промпт Claude Opus с версии 4.6 (5 февраля 2026 года) до 4.7 (16 апреля 2026 года), переименовав 'платформу для разработчиков' в 'Claude Platform', добавив Claude в Powerpoint в список инструментов, расширив инструкции по безопасности детей и внедрив новые поведенческие рекомендации по использованию инструментов и краткости ответов.

Обновления Claude для Excel и PowerPoint: интеграция контекста и навыков между приложениями
Claude для Excel и PowerPoint теперь используют общий контекст разговора между открытыми файлами, а навыки доступны в обоих надстройках. Инструменты доступны через Amazon Bedrock, Google Cloud Vertex AI и Microsoft Foundry для платных пользователей Mac и Windows.

Oracle рассматривает сокращение 20–30 тысяч рабочих мест и продажу Cerner для финансирования расширения центров обработки данных в сфере ИИ.
Oracle рассматривает сокращение от 20 000 до 30 000 рабочих мест и продажу своего подразделения медицинского программного обеспечения Cerner, чтобы высвободить 8-10 миллиардов долларов денежного потока для расширения центров обработки данных в сфере ИИ, в то время как американские банки отказываются от финансирования инфраструктурного строительства компании на сумму 156 миллиардов долларов.

inclusionAI发布Ling-2.6-1T:混合架构万亿参数模型,具备稀疏注意力与快速推理能力
Ling-2.6-1T — это новая открытая модель с триллионом параметров, сочетающая MLA и Linear Attention для эффективной работы с длинными контекстами и использующая Contextual Process Redundancy Suppression для сокращения многословных цепочек рассуждений. Достигает открытых SOTA на AIME26, SWE-bench Verified, BFCL-V4, TAU2-Bench и IFBench.