Агенты ИИ для написания кода испытывают трудности с управлением контекстом в больших кодовых базах.

Проблема не в узком месте выполнения
Наблюдения за реальным использованием кодовых баз показывают, что ИИ-агенты для написания кода последовательно тратят значительное время на исследование, а не на выполнение. Каждый раз, когда агент приступает к новой задаче, он делает 15–20 вызовов инструментов для ознакомительных действий, включая:
- Поиск маршрутов через grep
- Чтение промежуточного ПО
- Проверку типов
К тому времени, когда агент начинает писать код, он уже потратил значительную часть своего контекстного окна на исследовательскую работу.
Доказательства упрощённых подходов
Vercel продемонстрировал эту проблему с противоположной стороны, убрав 80% инструментов у своего агента и предоставив ему доступ к bash. Этот подход привёл к 100% точности, что говорит о том, что возможности выполнения не являются ограничивающим фактором.
Аналогично, Pi (минималистичный агент для написания кода) доказывает ту же точку всего с 4 инструментами и системным промптом, содержащим менее 1000 токенов.
Реальная проблема: управление контекстом
Если выполнение эффективно решено, то реальной сложной проблемой становится управление контекстом. Несколько факторов способствуют этой проблеме:
- Большие кодовые базы не помещаются ни в одно текущее контекстное окно
- Длительные задачи накапливают выводы инструментов, которые вытесняют ранние рассуждения из окна внимания
- Динамические среды меняются между сессиями
- Исследование «Lost in the Middle» показывает, что модели лучше всего рассуждают в начале своего контекстного окна — именно тогда, когда агенты всё ещё ищут
Автор опубликовал более подробный анализ, исследующий эти проблемы и их последствия для разработки ИИ-агентов для написания кода.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Claude добавляет встроенные интерактивные графики и диаграммы в беседы.
Claude теперь создает пользовательские диаграммы, схемы и визуализации прямо в чат-беседах, позволяя пользователям настраивать и изменять визуализации по мере развития обсуждения. Функция доступна в бета-версии на всех типах тарифных планов и отображается встроенно, а не в боковых панелях.

Анализ кампании астротурфинга OpenClaw и накачки токена $CLAWD
Расследование на Reddit показало, что вирусный рост OpenClaw в конце января был обусловлен рекурсивной кампанией астротурфинга с использованием примерно 400 бот-инстансов, которые создали ажиотаж для накачки токена $CLAWD до рыночной капитализации в $16 млн, после чего его стоимость обвалилась на 90%.

Повышение производительности Gemini 3 Flash с помощью конкурентного промптинга
Исследователи достигли 95% производительности бенчмарка Claude 4.6 Opus с помощью Gemini 3 Flash при 1/200 стоимости и в 4 раза большей скорости, используя конкурентные методы промптинга, которые задействовали человеческую ревность как мотивацию.

Вайб-кодинг против производственной реальности: необсуждаемые последствия
Пользователь Reddit External_Bobcat8183 подчеркивает разрыв между быстрыми PoC с помощью вайб-кодинга и реальными проблемами продакшена: аутентификация, секреты, GDPR, ограничение скорости, мультитенантность.