Канарейка: ИИ-агент для автоматизированного тестирования на основе изменений в коде

Что делает Canary
Canary создаёт ИИ-агентов, которые подключаются к вашей кодовой базе, чтобы понимать структуру приложения, включая маршруты, контроллеры и логику валидации. Когда вы отправляете пул-реквест, он читает различия, понимает намерение за изменениями, затем генерирует и выполняет тесты в вашем приложении для предпросмотра, чтобы проверить реальные пользовательские сценарии от начала до конца.
Ключевые возможности
- Анализирует различия в PR, чтобы понять, что именно изменилось
- Генерирует и запускает тесты для каждого затронутого пользовательского сценария
- Комментирует прямо в PR с результатами тестов и записями экрана
- Отмечает поведение, которое не соответствует ожиданиям
- Позволяет запускать тесты конкретных пользовательских сценариев через комментарии в PR
- Тесты, сгенерированные из PR, можно перенести в регрессионные наборы
- Создавайте тесты, описывая их простым английским языком — Canary генерирует полные наборы тестов из вашей кодовой базы
- Планирует и непрерывно запускает тесты
Технический подход
По словам основателей, это не то, с чем может справиться одна базовая модель. Контроль качества охватывает несколько модальностей: исходный код, DOM/ARIA, эмуляторы устройств, визуальная проверка, анализ записи экрана, журналы сети/консоли и состояние живого браузера. Система требует пользовательских флотов браузеров, пользовательских сессий, временных сред, ферм устройств и заполнения данных для надёжного запуска тестов.
Выявление побочных эффектов изменений кода требует специализированной обвязки, которая ломает приложения множеством возможных способов для разных типов пользователей, которые обычное тестирование по счастливому пути не охватывает.
Результаты тестирования
Команда опубликовала QA-Bench v0, первый бенчмарк для проверки кода. Они протестировали свой специально созданный агент контроля качества против GPT 5.4, Claude Code (Opus 4.6) и Sonnet 4.6 на 35 реальных PR в Grafana, Mattermost, Cal.com и Apache Superset. Тесты измеряли три параметра: Релевантность, Покрытие и Согласованность.
Покрытие показало наибольший разрыв в производительности. Canary лидирует с:
- 11 очков над GPT 5.4
- 18 очков над Claude Code
- 26 очков над Sonnet 4.6
Пример из реального мира
У одного клиента из строительной сферы был процесс выставления счетов, где сумма к оплате отклонялась от исходной общей суммы предложения примерно на $1,600. Canary обнаружил этот регресс в их процессе выставления счетов до выпуска.
Прошлое основателей
Основатели ранее создавали ИИ-инструменты для программирования в Windsurf, Cognition и Google. Они заметили, что хотя ИИ-инструменты ускоряют команды в выпуске, никто не тестировал реальное поведение пользователей перед слиянием, что приводило к проблемам в продакшене в процессах оформления заказа, аутентификации и выставления счетов.
📖 Read the full source: HN AI Agents
👀 Смотрите также

MCP-поддерживаемый агент-нативный хостинг: развертывайте приложения через ИИ-агентов на ocl-nexus
ocl-nexus представляет настройку сервера MCP, которая позволяет ИИ-агентам программирования разворачивать приложения непосредственно в защищенную SSO среду, используя только ключ API.

PocketTeam: Конвейер кода Claude с безопасностью на основе хуков и обучающимися агентами
PocketTeam — это конвейер Claude Code, который реализует 9 уровней безопасности на уровне вызова инструментов для блокировки опасных операций, таких как запись в .env или команды rm -rf. Система включает агента-наблюдателя, который анализирует выполненные задачи и записывает структурированные выводы для повышения производительности будущих агентов.

Создание агентного RAG для Obsidian с помощью Claude и оценочного инструмента для выявления галлюцинаций
Разработчик создал агентную RAG-систему поверх хранилища Obsidian, чтобы позволить Claude отвечать на вопросы из инженерных книг, а затем создал eval-обвязку с использованием Claude Sonnet в качестве судьи для обнаружения случаев, когда агент уверенно ошибался. Итерации рубрики повысили согласие судьи с человеком с 39% до 94%.

Клод Коворк против ОпенКло: Где нарратив о замене работает, а где нет
Claude Cowork предлагает постоянные сеансы работы на рабочем столе с низким уровнем трения, в то время как OpenClaw сохраняет преимущества в системной автоматизации, экосистеме навыков и контроле рабочих процессов.