Как компания Mendral сократила затраты на LLM, перейдя на Opus: шаблон триажера, доступ к SQL и архитектура под-агентов

Mendral недавно опубликовал подробности о том, как они перешли на Opus 4.6 для анализа сбоев CI, при этом снизив общие расходы на LLM по сравнению с предыдущей настройкой на Sonnet 4.0. Ключевым моментом является архитектура, которая разделяет сортировку и расследование, используя дешевые под-агенты для тяжелой работы.
Архитектура: дешевый сортировщик, дорогой планировщик
Из примерно 4000 проанализированных сбоев CI 3187 были дубликатами — известный нестабильный тест, инфраструктурный сбой или сетевой глюк. Запускать дорогую модель для таких случаев расточительно. Но дедупликация не детерминирована: одна и та же задача может упасть по разным причинам. Их решение — паттерн сортировщика:
- Агент Haiku выполняет узкую задачу: решает, отслеживается ли уже данный сбой. Он использует точное совпадение и семантический поиск (pgvector) по известным сообщениям об ошибках. Две разные строки, такие как
operator does not exist bigint character varyingиmigration type mismatch on installation_id, могут быть одной и той же первопричиной — семантический поиск это улавливает. - В случае сомнений Haiku передает задачу Opus 4.6. Ложное срабатывание стоит немного; ложное отрицание пропускает реальную ошибку.
- 4 из 5 сбоев никогда не доходят до Opus. Совпадение сортировщика стоит примерно в 25 раз меньше, чем полное расследование.
Пусть агенты тянут контекст, не толкайте его
Вместо того чтобы втискивать 200К+ строк логов в промпты, агенты получают SQL-интерфейс к ClickHouse. Есть сырая таблица (github_logs, одна строка на строку лога) и материализованные представления с предварительно агрегированными данными: частота отказов по рабочим процессам, время выполнения задач, количество результатов. Большинство расследований начинаются с представлений для сужения области поиска, затем переходят к сырым логам. Если запрос возвращает слишком много строк, система обрезает и предлагает более конкретное представление. Если логи еще не загружены, агенты переключаются на GitHub CLI.
Дорогие модели планируют, дешевые выполняют
Opus формирует гипотезу и запускает под-агентов Haiku, ограниченных одним уровнем вложенности — без неограниченного ветвления. Каждый под-агент получает от Opus промпт: что именно искать и как. Пример из реального случая:
Три задачи Storybook CI упали на одном коммите, сбой произошел на шаге pnpm install. Opus отправил под-агента получить сообщения об ошибках с этого шага. ClickHouse еще не имел логов, поэтому под-агент использовал GitHub CLI и вернул: gyp ERR! not found: make — [email protected] не смог скомпилироваться, потому что на раннере не было make. Затем Opus запросил в ClickHouse тренд отказов за 14 дней, нашел точку перегиба и передал эскалацию. Промпты под-агентов явные: "Получите логи CI для этого запуска. Верните точные сообщения об ошибках из шага pnpm install, полный вывод ошибок, особенно последние 50-100 строк."
Для кого это
Команды, создающие агентов на основе LLM для отладки CI или любых задач, где размер контекста и стоимость являются проблемами.
📖 Прочитать полный источник: HN LLM Tools
👀 Смотрите также

Any Buddy v2.0.0 добавляет функцию предварительного просмотра для Claude Code Buddies.
Any Buddy v2.0.0 представляет функцию предварительного просмотра, которая позволяет пользователям тестировать различных помощников перед применением их к коду Claude, а также платформенные исправления для Linux, Mac и Windows. Инструмент получил 160 звёзд на GitHub с момента выпуска.

Навык "Движок текстовых приключений" для Claude Desktop
Движок текстовых приключенческих игр работает полностью внутри Claude Desktop как навык без серверов, приложений или кода для запуска. Включает полную RPG-механику, 3D-рендеринг кубиков, 19 модулей расширения и переносимые файлы сохранений.

OpenTidy: Фоновый помощник с открытым исходным кодом на основе Claude Code для административных задач
OpenTidy — это сервис с открытым исходным кодом для macOS, который запускает постоянные сессии Claude Code для выполнения административных задач, таких как обработка счетов, заполнение форм и сортировка сообщений. Он выполняет до 10 параллельных задач с уведомлениями в Telegram для чувствительных действий.

Расширение Event Horizon для VS Code добавляет блокировку файлов и координацию планов для нескольких ИИ-агентов.
Event Horizon — это расширение для VS Code, изначально созданное для визуализации Claude Code, теперь включает функции блокировки файлов и координации планов, чтобы предотвратить перезапись работы нескольких ИИ-агентов в одной кодовой базе. Инструмент поддерживает Claude Code, OpenCode и Copilot с настройкой в один клик.