Агенты ИИ для написания кода испытывают трудности с управлением контекстом в больших кодовых базах.

✍️ OpenClawRadar📅 Опубликовано: 18 марта 2026 г.🔗 Source
Агенты ИИ для написания кода испытывают трудности с управлением контекстом в больших кодовых базах.
Ad

Проблема не в узком месте выполнения

Наблюдения за реальным использованием кодовых баз показывают, что ИИ-агенты для написания кода последовательно тратят значительное время на исследование, а не на выполнение. Каждый раз, когда агент приступает к новой задаче, он делает 15–20 вызовов инструментов для ознакомительных действий, включая:

  • Поиск маршрутов через grep
  • Чтение промежуточного ПО
  • Проверку типов

К тому времени, когда агент начинает писать код, он уже потратил значительную часть своего контекстного окна на исследовательскую работу.

Доказательства упрощённых подходов

Vercel продемонстрировал эту проблему с противоположной стороны, убрав 80% инструментов у своего агента и предоставив ему доступ к bash. Этот подход привёл к 100% точности, что говорит о том, что возможности выполнения не являются ограничивающим фактором.

Аналогично, Pi (минималистичный агент для написания кода) доказывает ту же точку всего с 4 инструментами и системным промптом, содержащим менее 1000 токенов.

Ad

Реальная проблема: управление контекстом

Если выполнение эффективно решено, то реальной сложной проблемой становится управление контекстом. Несколько факторов способствуют этой проблеме:

  • Большие кодовые базы не помещаются ни в одно текущее контекстное окно
  • Длительные задачи накапливают выводы инструментов, которые вытесняют ранние рассуждения из окна внимания
  • Динамические среды меняются между сессиями
  • Исследование «Lost in the Middle» показывает, что модели лучше всего рассуждают в начале своего контекстного окна — именно тогда, когда агенты всё ещё ищут

Автор опубликовал более подробный анализ, исследующий эти проблемы и их последствия для разработки ИИ-агентов для написания кода.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Claude добавляет встроенные интерактивные графики и диаграммы в беседы.
Новости

Claude добавляет встроенные интерактивные графики и диаграммы в беседы.

Claude теперь создает пользовательские диаграммы, схемы и визуализации прямо в чат-беседах, позволяя пользователям настраивать и изменять визуализации по мере развития обсуждения. Функция доступна в бета-версии на всех типах тарифных планов и отображается встроенно, а не в боковых панелях.

OpenClawRadar
Анализ кампании астротурфинга OpenClaw и накачки токена $CLAWD
Новости

Анализ кампании астротурфинга OpenClaw и накачки токена $CLAWD

Расследование на Reddit показало, что вирусный рост OpenClaw в конце января был обусловлен рекурсивной кампанией астротурфинга с использованием примерно 400 бот-инстансов, которые создали ажиотаж для накачки токена $CLAWD до рыночной капитализации в $16 млн, после чего его стоимость обвалилась на 90%.

OpenClawRadar
Повышение производительности Gemini 3 Flash с помощью конкурентного промптинга
Новости

Повышение производительности Gemini 3 Flash с помощью конкурентного промптинга

Исследователи достигли 95% производительности бенчмарка Claude 4.6 Opus с помощью Gemini 3 Flash при 1/200 стоимости и в 4 раза большей скорости, используя конкурентные методы промптинга, которые задействовали человеческую ревность как мотивацию.

OpenClawRadar
Вайб-кодинг против производственной реальности: необсуждаемые последствия
Новости

Вайб-кодинг против производственной реальности: необсуждаемые последствия

Пользователь Reddit External_Bobcat8183 подчеркивает разрыв между быстрыми PoC с помощью вайб-кодинга и реальными проблемами продакшена: аутентификация, секреты, GDPR, ограничение скорости, мультитенантность.

OpenClawRadar