Бенчмарк vs продакшен: почему ИИ-агенты проходят тесты, но падают в работе

Разработчик, управляющий полностью автоматизированной операцией по выбору спортивных ставок (AIBossSports), попытался сократить расходы, перейдя с Claude Sonnet 4.6 на более дешёвые модели через OpenRouter. Операция использует ИИ-агентов для обработки производства видео, контроля качества, распространения на YouTube/X/TikTok, отправки SMS подписчикам и аналитики.

Настройка бенчмарка

Разработчик создал бенчмарк-рубрику для тестирования альтернатив:

Прочитать и обобщить производственный файл
Корректно перечислить доступные видеоресурсы
Делегировать многоэтапную задачу суб-агенту
Синтезировать результаты из нескольких источников
Сгенерировать структурированный вывод (формат JSON/отчёта)

Обе модели, Grok и MiniMax, успешно прошли эти тесты, что предполагало возможность значительной экономии средств.

Провалы в продакшене

При развёртывании в продакшене обе модели провалились способами, которые бенчмарк не выявил:

Grok галлюцинировал пути к клипам, которые выглядели правдоподобно в логах вывода, но были неверными. Видеоагент загружал общие стоковые клипы вместо специфичных для команд кадров, потому что галлюцинированные пути существовали, но не были контекстуально уместны.
MiniMax вызывал ошибки MIME-типов на логотипах во время сборки электронных писем. Система электронной почты ломалась при множественных отправках с перерывами, что было отслежено до того, как MiniMax обрабатывал метаданные вложений файлов.

Разработчик переключил всё обратно на Claude Sonnet 4.6.

Извлечённый урок

Бенчмарк тестировал, достаточно ли модели «умны», но не проверял операционную надёжность в неидеальных реальных условиях. Провалы выявили пробелы в тестировании:

Реальные производственные структуры каталогов (а не чистые тестовые фикстуры)
Извлечение ресурсов с преднамеренными граничными случаями (отсутствующие файлы, неоднозначные имена)
Сквозная проверка электронной почты/вложений
Тесты цепочек мульти-агентов, где сбои в середине цепочки должны быть обнаружены

Разработчик сделал вывод: «Бенчмарки тестируют интеллект. Продакшен тестирует надёжность. Это не одно и то же.»

📖 Read the full source: r/openclaw

Бенчмарк против продакшена: когда тесты ИИ-агентов проходят, а реальные рабочие процессы дают сбой

Настройка бенчмарка

Провалы в продакшене

Извлечённый урок

👀 Смотрите также

Использование yavy.dev для запросов к документации OpenClaw через ИИ для помощи с настройкой.

Глубокие исследовательские отчеты с Hermes Agent и QwQ-32B-Preview: практическое руководство

Создание автоматизированного конвейера для редактирования видео с помощью инструментов OpenClaw MCP

Пользователь OpenClaw сталкивается с проблемами автоматизации AI-агента после успешной настройки конвейера Claude Code.