Ограничительное затухание: LLM-агенты теряют 30 баллов на структурированных задачах

Новая статья Франческо Денте, Дарио Сатриани и Паоло Папотти (arXiv:2605.06445) вводит понятие ограничительного затухания — измеримого падения производительности LLM-агентов по мере накопления структурных требований в генерации бэкенд-кода. Авторы оценивают агентов на 80 задачах с нуля и 20 задачах по добавлению функциональности, охватывающих восемь веб-фреймворков, используя фиксированный API-контракт для изоляции структурной сложности.

Ключевые выводы

Способные конфигурации теряют в среднем 30 пунктов в проценте прохождения утверждений от базового уровня (свободные спецификации) до полностью заданных задач. Слабые конфигурации приближаются к нулевому проценту.
Чувствительность к фреймворку крайне высока: агенты успешны в минималистичных, явных фреймворках, таких как Flask, но показывают значительно худшие результаты в средах, ориентированных на соглашения, таких как FastAPI и Django.
Основной класс ошибок: дефекты слоя данных — неправильная композиция запросов и нарушения ORM во время выполнения составляют большинство сбоев.

Почему это важно

Существующие бенчмарки вознаграждают функционально корректные, но структурно произвольные решения. Продакшн-код требует строгого соблюдения архитектурных шаблонов, схем баз данных и ORM-соглашений. Статья показывает, что совместное удовлетворение функциональных и структурных требований остается открытой проблемой для кодирующих агентов — реальность, которую признает любой разработчик, использующий AI-агентов в продакшне.

Если вы используете LLM-агентов для бэкенд-работы, следите за ограничительным затуханием: по мере добавления ограничений (например, моделей данных, миграций, промежуточного ПО) качество выходных данных агента может резко ухудшиться. Данные показывают, что вам следует явно указывать структурные правила и запускать статические верификаторы вместе с end-to-end поведенческими тестами.

📖 Читать полный источник: HN AI Agents

约束衰减：为什么LLM代理在后端结构化代码中失败

Ключевые выводы

Почему это важно

👀 Смотрите также

Выбор лучшего поставщика токенов для ваших потребностей в API

Token Efficiency как акт отказа: Почему AI-компании хотят, чтобы вы были расточительны

Изменения конфигурации с Kimi 2.5 и Opus 4.6

Клауд-Код v2.1.30 выпущен с улучшениями для PDF и OAuth