Canary AI QA 에이전트: 코드 변경으로 자동화 테스트 생성

Canary의 기능

Canary는 AI 에이전트를 구축하여 코드베이스에 연결하고, 라우트, 컨트롤러, 검증 로직을 포함한 애플리케이션 구조를 이해합니다. 풀 리퀘스트를 푸시하면 변경 사항을 읽고, 변경 의도를 파악한 다음, 프리뷰 앱에 대해 실제 사용자 워크플로우를 종단 간으로 확인하는 테스트를 생성하고 실행합니다.

주요 기능

PR 변경 사항을 분석하여 실제로 무엇이 바뀌었는지 이해
영향받는 모든 사용자 워크플로우에 대한 테스트 생성 및 실행
테스트 결과와 화면 녹화본을 PR에 직접 코멘트로 남김
기대와 일치하지 않는 동작을 플래그로 표시
PR 코멘트를 통해 특정 사용자 워크플로우 테스트 트리거 가능
PR에서 생성된 테스트를 회귀 테스트 스위트로 이동 가능
일반 영어로 프롬프트하여 테스트 생성 - Canary가 코드베이스에서 전체 테스트 스위트 생성
테스트를 지속적으로 예약 및 실행

기술적 접근 방식

창립자들에 따르면, 이는 단일 기반 모델만으로 처리할 수 있는 것이 아닙니다. QA는 여러 모달리티를 포괄합니다: 소스 코드, DOM/ARIA, 디바이스 에뮬레이터, 시각적 검증, 화면 녹화 분석, 네트워크/콘솔 로그, 라이브 브라우저 상태. 시스템은 테스트를 안정적으로 실행하기 위해 맞춤형 브라우저 플릿, 사용자 세션, 임시 환경, 온디바이스 팜, 데이터 시딩이 필요합니다.

코드 변경의 2차 효과를 포착하려면, 일반적인 정상 경로 테스트가 다루지 못하는 다양한 사용자 유형에 걸쳐 애플리케이션을 여러 가능한 방식으로 중단시키는 특수화된 하네스가 필요합니다.

벤치마크 결과

팀은 코드 검증을 위한 최초의 벤치마크인 QA-Bench v0를 발표했습니다. 그들은 목적에 맞게 구축된 QA 에이전트를 GPT 5.4, Claude Code(Opus 4.6), Sonnet 4.6과 비교하여 Grafana, Mattermost, Cal.com, Apache Superset의 35개 실제 PR에서 테스트했습니다. 테스트는 관련성(Relevance), 커버리지(Coverage), 일관성(Coherence) 세 가지 차원을 측정했습니다.

커버리지에서 가장 큰 성능 격차가 나타났습니다. Canary가 다음과 같이 앞섰습니다:

GPT 5.4보다 11점 높음
Claude Code보다 18점 높음
Sonnet 4.6보다 26점 높음

실제 사례

한 건설 기술 고객은 청구서 흐름에서 지불 금액이 원래 제안 총액에서 약 $1,600 정도 벗어나는 문제가 있었습니다. Canary는 출시 전에 이 회귀를 청구서 흐름에서 발견했습니다.

창립자 배경

창립자들은 이전에 Windsurf, Cognition, Google에서 AI 코딩 도구를 구축했습니다. 그들은 AI 도구가 팀의 배포 속도를 높였지만, 병합 전에 실제 사용자 행동을 테스트하는 사람이 없어 결제, 인증, 청구 흐름에서 프로덕션 문제가 발생한다는 점을 관찰했습니다.

📖 Read the full source: HN AI Agents