Девять типичных паттернов сбоев ИИ-агентов для написания кода и валидация перед выполнением

Пост на Reddit из r/LocalLLaMA описывает девять паттернов сбоев, наблюдаемых в AI-агентах для написания кода, и предлагает подход к валидации для их обнаружения перед выполнением кода.
Выявленные паттерны сбоев
Автор перечисляет следующие конкретные проблемы:
- C1 — Неполная обработка перечислений: Агент ссылается на значения статусов, которых нет в кодовой базе.
- C2 — Скрытые пути с нулевыми значениями: Необязательные параметры пропускаются без какого-либо уведомления или документации.
- C3 — Несоответствие паттерна аутентификации SSE: Browser EventSource не может отправлять пользовательские заголовки — агент использует неправильную аутентификацию.
- C4 — Неограниченные текстовые поля: Отсутствие усечения для столбцов, которые получают полные описания задач или различия.
- C5 — Состояние гонки между событием и БД: Событие SSE срабатывает до завершения записи в БД. Фронтенд запрашивает пустую строку.
- C6 — Несоответствие схемы и ORM: Тип SQL указывает на допустимость null, а поле ORM требует обязательного значения.
- C7 — Непроверяемые ожидания: Требования к тестированию без пути реализации в спецификации.
- C8 — Неидемпотентные вставки: Логика повторных попыток создает дублирующиеся строки.
- C9 — Вымышленные импорты: Модуль отсутствует в кодовой базе.
Подход к валидации
Автор утверждает, что теперь они запускают эти паттерны в качестве проверочного прохода после планирования и перед выполнением. По сообщениям, этот подход позволяет обнаружить примерно 70% сбоев до запуска любого кода. В посте задается вопрос, внедряют ли другие разработчики аналогичную предварительную валидацию в свои конвейеры агентов.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Анализ Claude Opus 4.7: Высокий интеллект, но большая стоимость и многословность
Claude Opus 4.7 (Адаптивное рассуждение, Максимальные усилия) занимает первое место по интеллекту среди 133 моделей с оценкой 57 по Индексу интеллекта Artificial Analysis, но стоит $5 за 1 млн входных токенов и $25 за 1 млн выходных токенов, что делает его значительно дороже среднего.

Claude AI тратит 81 минуту на «настоящее мышление» – скачки пользовательских отчетов вокруг крупных обновлений
Пользователь сообщает, что Claude AI потратил 1 час 21 минуту на простую задачу, предполагая, что всплески производительности происходят вскоре после крупных обновлений. Пример: исследовательский запрос просканировал 5 113 источников за один сеанс, но позже — только 100–200 источников для аналогичных запросов.

ИИ слишком дорог: гиперскейлерам нужно 3 триллиона долларов, чтобы выйти в ноль
Гиперскейлеры инвестировали более $800 млрд в капитальные расходы на ИИ, а к 2027 году планируется еще $1 трлн. Одна только Microsoft потратила ~$100 млрд на инфраструктуру OpenAI, однако доходы от ИИ покрывают лишь ~20% ее капитальных затрат.

Когнитивный долг: когда результаты ИИ опережают понимание
Пост на Reddit обсуждает «когнитивный долг» — разрыв между результатом, сгенерированным ИИ, и пониманием этого результата командой — и утверждает, что творческий контроль означает понимание того, что вы отправили. Сам пост был написан с помощью Claude, иронично комментируя эту ситуацию.