9 паттернов сбоев ИИ-агентов: валидация перед выполнением

Пост на Reddit из r/LocalLLaMA описывает девять паттернов сбоев, наблюдаемых в AI-агентах для написания кода, и предлагает подход к валидации для их обнаружения перед выполнением кода.

Выявленные паттерны сбоев

Автор перечисляет следующие конкретные проблемы:

C1 — Неполная обработка перечислений: Агент ссылается на значения статусов, которых нет в кодовой базе.
C2 — Скрытые пути с нулевыми значениями: Необязательные параметры пропускаются без какого-либо уведомления или документации.
C3 — Несоответствие паттерна аутентификации SSE: Browser EventSource не может отправлять пользовательские заголовки — агент использует неправильную аутентификацию.
C4 — Неограниченные текстовые поля: Отсутствие усечения для столбцов, которые получают полные описания задач или различия.
C5 — Состояние гонки между событием и БД: Событие SSE срабатывает до завершения записи в БД. Фронтенд запрашивает пустую строку.
C6 — Несоответствие схемы и ORM: Тип SQL указывает на допустимость null, а поле ORM требует обязательного значения.
C7 — Непроверяемые ожидания: Требования к тестированию без пути реализации в спецификации.
C8 — Неидемпотентные вставки: Логика повторных попыток создает дублирующиеся строки.
C9 — Вымышленные импорты: Модуль отсутствует в кодовой базе.

Подход к валидации

Автор утверждает, что теперь они запускают эти паттерны в качестве проверочного прохода после планирования и перед выполнением. По сообщениям, этот подход позволяет обнаружить примерно 70% сбоев до запуска любого кода. В посте задается вопрос, внедряют ли другие разработчики аналогичную предварительную валидацию в свои конвейеры агентов.

📖 Read the full source: r/LocalLLaMA

Девять типичных паттернов сбоев ИИ-агентов для написания кода и валидация перед выполнением

Выявленные паттерны сбоев

Подход к валидации

👀 Смотрите также

Статья Клода Шеннона 1950 года о шахматах предсказала ключевую проблему GenAI: угадывание против знания

Основатели Codestrap критикуют метрики ИИ-кодирования и предупреждают о проблемах с качеством.

Anthropic отреагировала на утечку кода, связанную с ИИ-агентом Claude

Тема «Мифы о Клоде от Anthropic: Маркетинг страха или реальная угроза?»