Cursor и Claude Code: раздутый контекст убивает ИИ-рассуждения

Разработчик на r/LocalLLaMA провел аудит своих API-логов и полезной нагрузки промптов после того, как заметил рост расхода токенов и ухудшение выводов агента примерно после 20 шагов до уровня "каши". Его вывод: модели не деградируют; они задыхаются в собственных раздутых контекстных окнах.

Четыре структурные ошибки

Изучив, что Cursor и Claude Code на самом деле делают в репозитории на 10k+ строк, автор выявил четыре паттерна:

Слепое исследование: Агент рекурсивно делает grep и сбрасывает в контекст ~40 разных файлов, чтобы найти одну утилиту. Часто он упускает существующий компонент и галлюцинирует дубликат с нуля.
Сырое поглощение: Сброс файла на 2000 строк в промпт для обновления интерфейса из 5 строк. Трата огромного количества токенов контекста.
Инструментальный понос: Подробные логи тестов и массивные определения MCP-инструментов потребляют ~30k токенов до того, как модель сгенерирует хоть один токен кода.
Память золотой рыбки: Каждая сессия начинается с чистого листа — ноль осведомленности о проекте — поэтому одни и те же файлы читаются снова и снова.

Порог на 80% контекста

Как только контекст заполняется шумом примерно на 80% емкости, механизм внимания модели резко ухудшается. IQ заметно падает, и она начинает разрушать архитектуру. Стандартный RAG с чанкингом не исправляет ситуацию, потому что он бесполезен для логики — агент остается слеп к структуре кодовой базы, пока не сжигает токены на чтение сырого текста.

Предложенное исправление: AST или графовая БД

Автор призывает к созданию агента с открытым исходным кодом, который парсит код в AST или графовую базу данных до потребления контекста, чтобы он понимал структуру без траты токенов на сырой текст. Это предотвратит архитектурную лапшу, на исправление которой уходит 5 часов за каждый 1 час, сэкономленный на наборе кода.