约束衰减:为什么LLM代理在后端结构化代码中失败

✍️ OpenClawRadar📅 Опубликовано: 26 мая 2026 г.🔗 Source
约束衰减:为什么LLM代理在后端结构化代码中失败
Ad

Новая статья Франческо Денте, Дарио Сатриани и Паоло Папотти (arXiv:2605.06445) вводит понятие ограничительного затухания — измеримого падения производительности LLM-агентов по мере накопления структурных требований в генерации бэкенд-кода. Авторы оценивают агентов на 80 задачах с нуля и 20 задачах по добавлению функциональности, охватывающих восемь веб-фреймворков, используя фиксированный API-контракт для изоляции структурной сложности.

Ключевые выводы

  • Способные конфигурации теряют в среднем 30 пунктов в проценте прохождения утверждений от базового уровня (свободные спецификации) до полностью заданных задач. Слабые конфигурации приближаются к нулевому проценту.
  • Чувствительность к фреймворку крайне высока: агенты успешны в минималистичных, явных фреймворках, таких как Flask, но показывают значительно худшие результаты в средах, ориентированных на соглашения, таких как FastAPI и Django.
  • Основной класс ошибок: дефекты слоя данных — неправильная композиция запросов и нарушения ORM во время выполнения составляют большинство сбоев.
Ad

Почему это важно

Существующие бенчмарки вознаграждают функционально корректные, но структурно произвольные решения. Продакшн-код требует строгого соблюдения архитектурных шаблонов, схем баз данных и ORM-соглашений. Статья показывает, что совместное удовлетворение функциональных и структурных требований остается открытой проблемой для кодирующих агентов — реальность, которую признает любой разработчик, использующий AI-агентов в продакшне.

Если вы используете LLM-агентов для бэкенд-работы, следите за ограничительным затуханием: по мере добавления ограничений (например, моделей данных, миграций, промежуточного ПО) качество выходных данных агента может резко ухудшиться. Данные показывают, что вам следует явно указывать структурные правила и запускать статические верификаторы вместе с end-to-end поведенческими тестами.

📖 Читать полный источник: HN AI Agents

Ad

👀 Смотрите также

Последнее обновление сломало расширение Claude для VS Code на Windows из-за жестко заданного пути для Linux
Новости

Последнее обновление сломало расширение Claude для VS Code на Windows из-за жестко заданного пути для Linux

Недавнее обновление расширения VS Code от Anthropic жестко прописывает путь Linux, что ломает расширение на Windows. Возврат к предыдущей версии восстанавливает функциональность.

OpenClawRadar
Claude ограничивает использование сторонних инструментов, включая OpenClaw, начиная с 4 апреля.
Новости

Claude ограничивает использование сторонних инструментов, включая OpenClaw, начиная с 4 апреля.

Anthropic больше не будет разрешать использование лимитов подписки Claude с помощью сторонних оболочек, таких как OpenClaw, начиная с 4 апреля, требуя отдельной оплаты по мере использования для такого применения. Пользователи получат единовременный кредит, равный стоимости их ежемесячной подписки, и смогут предварительно приобрести пакеты использования со скидкой до 30%.

OpenClawRadar
Пользователь Reddit сравнивает Claude Sonnet 4.6 и GPT-5 по 10 задачам для ведения блога.
Новости

Пользователь Reddit сравнивает Claude Sonnet 4.6 и GPT-5 по 10 задачам для ведения блога.

Пользователь Reddit протестировал Claude Sonnet 4.6 против GPT-5, используя одинаковые промпты для 10 типичных задач ведения блога, и обнаружил, что разница во времени редактирования оказалась наиболее полезным показателем.

OpenClawRadar
Пользователь Reddit предлагает функцию временных меток для Claude, чтобы устранить пробел в осведомленности о времени.
Новости

Пользователь Reddit предлагает функцию временных меток для Claude, чтобы устранить пробел в осведомленности о времени.

Пользователь Reddit указывает на отсутствие у Claude временного восприятия как на ограничение для рабочих задач и предлагает опциональную функцию временных меток, которая будет добавлять дату и время к каждому ответу, сохраняя их между сессиями.

OpenClawRadar