Исследование ETH Zurich: Избыточный контекст снижает производительность ИИ-агентов для программирования

Недавнее исследование ETH Zurich предоставляет конкретные доказательства того, что больший контекст не обязательно означает лучшую производительность для ИИ-агентов, занимающихся кодированием. Исследование протестировало четырех кодирующих агентов на 138 реальных задачах GitHub с четкими количественными результатами.
Ключевые выводы
Исследование показало, что контекстные файлы, сгенерированные LLM, фактически снизили успешность выполнения задач на 2-3%, в то время как затраты на вывод увеличились на 20%. Даже контекстные файлы, написанные человеком, улучшили успешность лишь примерно на 4%, при этом все равно значительно увеличив затраты.
Основная проблема
Исследователи обнаружили, что агенты воспринимали каждую инструкцию в контекстных файлах как нечто, что должно быть выполнено. В одном эксперименте, когда они свели репозитории только к сгенерированному контекстному файлу, производительность снова улучшилась. Это указывает на то, что агентам трудно отличить важные инструкции от нерелевантной исторической информации.
Практические рекомендации
Исследование рекомендует включать только ту информацию, которую агент действительно не может обнаружить самостоятельно, сохраняя контекст минимальным. Это особенно актуально для данных коммуникации, таких как цепочки писем, которые могут выглядеть как контекст, но часто интерпретируются как инструкции, хотя на самом деле являются историческим шумом.
Решение Context API
Для решения этой проблемы исследователи разработали контекстный API (iGPT), который фокусируется на обработке электронной почты. API:
- Восстанавливает цепочки писем в графы разговоров до того, как контекст попадет в модель
- Удаляет дублирующийся цитируемый текст
- Определяет, кто что сказал и когда
- Возвращает структурированный JSON вместо необработанного текста
Такой подход гарантирует, что агенты получают отфильтрованный контекст вместо полных историй разговоров, улучшая их способность сосредотачиваться на релевантной информации.
📖 Прочитать полный источник: r/LocalLLaMA
👀 Смотрите также

Uber израсходовал годовой бюджет Claude Code за 4 месяца — вот что это значит
Сообщается, что Uber исчерпал годовой бюджет на Claude Code к концу апреля. В статье разбирается, почему структура использования сломала подписную модель, и какие уроки разработчики могут извлечь о постановке границ при работе с ИИ-кодингом.

Инцидент с сервисом Claude: повышенное количество ошибок на всех платформах
2 марта 2026 года у Claude наблюдались повышенные ошибки на платформах claude.ai, console и Claude Code, с проблемами, затрагивающими пути входа/выхода и некоторые методы API. Инцидент был устранен примерно через 4 часа.

Allbirds переходит от обуви к инфраструктуре ИИ, акции взлетают на 580%.
Обувной бренд Allbirds объявил о сделке на 50 миллионов долларов, чтобы стать бизнесом по инфраструктуре для вычислений ИИ под названием NewBird AI, что привело к росту его акций на 580%. Компания планирует закупить графические процессоры (GPU) и предложить графические чипы по требованию и облачные услуги для ИИ.

Разработчики ядра Linux предлагают удалить устаревший код из-за отчетов об ошибках, сгенерированных ИИ.
Разработчики ядра Linux предлагают удалить несколько устаревших подсистем, включая драйверы Ethernet ISA/PCMCIA, протоколы любительского радио, ATM и ISDN, чтобы снизить нагрузку от обработки отчетов об уязвимостях, генерируемых большими языковыми моделями.