约束衰减:为什么LLM代理在后端结构化代码中失败

Новая статья Франческо Денте, Дарио Сатриани и Паоло Папотти (arXiv:2605.06445) вводит понятие ограничительного затухания — измеримого падения производительности LLM-агентов по мере накопления структурных требований в генерации бэкенд-кода. Авторы оценивают агентов на 80 задачах с нуля и 20 задачах по добавлению функциональности, охватывающих восемь веб-фреймворков, используя фиксированный API-контракт для изоляции структурной сложности.
Ключевые выводы
- Способные конфигурации теряют в среднем 30 пунктов в проценте прохождения утверждений от базового уровня (свободные спецификации) до полностью заданных задач. Слабые конфигурации приближаются к нулевому проценту.
- Чувствительность к фреймворку крайне высока: агенты успешны в минималистичных, явных фреймворках, таких как Flask, но показывают значительно худшие результаты в средах, ориентированных на соглашения, таких как FastAPI и Django.
- Основной класс ошибок: дефекты слоя данных — неправильная композиция запросов и нарушения ORM во время выполнения составляют большинство сбоев.
Почему это важно
Существующие бенчмарки вознаграждают функционально корректные, но структурно произвольные решения. Продакшн-код требует строгого соблюдения архитектурных шаблонов, схем баз данных и ORM-соглашений. Статья показывает, что совместное удовлетворение функциональных и структурных требований остается открытой проблемой для кодирующих агентов — реальность, которую признает любой разработчик, использующий AI-агентов в продакшне.
Если вы используете LLM-агентов для бэкенд-работы, следите за ограничительным затуханием: по мере добавления ограничений (например, моделей данных, миграций, промежуточного ПО) качество выходных данных агента может резко ухудшиться. Данные показывают, что вам следует явно указывать структурные правила и запускать статические верификаторы вместе с end-to-end поведенческими тестами.
📖 Читать полный источник: HN AI Agents
👀 Смотрите также

Последнее обновление сломало расширение Claude для VS Code на Windows из-за жестко заданного пути для Linux
Недавнее обновление расширения VS Code от Anthropic жестко прописывает путь Linux, что ломает расширение на Windows. Возврат к предыдущей версии восстанавливает функциональность.

Claude ограничивает использование сторонних инструментов, включая OpenClaw, начиная с 4 апреля.
Anthropic больше не будет разрешать использование лимитов подписки Claude с помощью сторонних оболочек, таких как OpenClaw, начиная с 4 апреля, требуя отдельной оплаты по мере использования для такого применения. Пользователи получат единовременный кредит, равный стоимости их ежемесячной подписки, и смогут предварительно приобрести пакеты использования со скидкой до 30%.

Пользователь Reddit сравнивает Claude Sonnet 4.6 и GPT-5 по 10 задачам для ведения блога.
Пользователь Reddit протестировал Claude Sonnet 4.6 против GPT-5, используя одинаковые промпты для 10 типичных задач ведения блога, и обнаружил, что разница во времени редактирования оказалась наиболее полезным показателем.

Пользователь Reddit предлагает функцию временных меток для Claude, чтобы устранить пробел в осведомленности о времени.
Пользователь Reddit указывает на отсутствие у Claude временного восприятия как на ограничение для рабочих задач и предлагает опциональную функцию временных меток, которая будет добавлять дату и время к каждому ответу, сохраняя их между сессиями.