카나리: 코드 변경에 기반한 자동화 테스트를 위한 AI QA 에이전트

✍️ OpenClawRadar📅 게시일: March 19, 2026🔗 Source
카나리: 코드 변경에 기반한 자동화 테스트를 위한 AI QA 에이전트
Ad

Canary의 기능

Canary는 AI 에이전트를 구축하여 코드베이스에 연결하고, 라우트, 컨트롤러, 검증 로직을 포함한 애플리케이션 구조를 이해합니다. 풀 리퀘스트를 푸시하면 변경 사항을 읽고, 변경 의도를 파악한 다음, 프리뷰 앱에 대해 실제 사용자 워크플로우를 종단 간으로 확인하는 테스트를 생성하고 실행합니다.

주요 기능

  • PR 변경 사항을 분석하여 실제로 무엇이 바뀌었는지 이해
  • 영향받는 모든 사용자 워크플로우에 대한 테스트 생성 및 실행
  • 테스트 결과와 화면 녹화본을 PR에 직접 코멘트로 남김
  • 기대와 일치하지 않는 동작을 플래그로 표시
  • PR 코멘트를 통해 특정 사용자 워크플로우 테스트 트리거 가능
  • PR에서 생성된 테스트를 회귀 테스트 스위트로 이동 가능
  • 일반 영어로 프롬프트하여 테스트 생성 - Canary가 코드베이스에서 전체 테스트 스위트 생성
  • 테스트를 지속적으로 예약 및 실행

기술적 접근 방식

창립자들에 따르면, 이는 단일 기반 모델만으로 처리할 수 있는 것이 아닙니다. QA는 여러 모달리티를 포괄합니다: 소스 코드, DOM/ARIA, 디바이스 에뮬레이터, 시각적 검증, 화면 녹화 분석, 네트워크/콘솔 로그, 라이브 브라우저 상태. 시스템은 테스트를 안정적으로 실행하기 위해 맞춤형 브라우저 플릿, 사용자 세션, 임시 환경, 온디바이스 팜, 데이터 시딩이 필요합니다.

코드 변경의 2차 효과를 포착하려면, 일반적인 정상 경로 테스트가 다루지 못하는 다양한 사용자 유형에 걸쳐 애플리케이션을 여러 가능한 방식으로 중단시키는 특수화된 하네스가 필요합니다.

Ad

벤치마크 결과

팀은 코드 검증을 위한 최초의 벤치마크인 QA-Bench v0를 발표했습니다. 그들은 목적에 맞게 구축된 QA 에이전트를 GPT 5.4, Claude Code(Opus 4.6), Sonnet 4.6과 비교하여 Grafana, Mattermost, Cal.com, Apache Superset의 35개 실제 PR에서 테스트했습니다. 테스트는 관련성(Relevance), 커버리지(Coverage), 일관성(Coherence) 세 가지 차원을 측정했습니다.

커버리지에서 가장 큰 성능 격차가 나타났습니다. Canary가 다음과 같이 앞섰습니다:

  • GPT 5.4보다 11점 높음
  • Claude Code보다 18점 높음
  • Sonnet 4.6보다 26점 높음

실제 사례

한 건설 기술 고객은 청구서 흐름에서 지불 금액이 원래 제안 총액에서 약 $1,600 정도 벗어나는 문제가 있었습니다. Canary는 출시 전에 이 회귀를 청구서 흐름에서 발견했습니다.

창립자 배경

창립자들은 이전에 Windsurf, Cognition, Google에서 AI 코딩 도구를 구축했습니다. 그들은 AI 도구가 팀의 배포 속도를 높였지만, 병합 전에 실제 사용자 행동을 테스트하는 사람이 없어 결제, 인증, 청구 흐름에서 프로덕션 문제가 발생한다는 점을 관찰했습니다.

📖 Read the full source: HN AI Agents

Ad

👀 See Also

boxBot: Claude와 Hailo AI로 구동되는 오픈소스 스마트 스피커
Tools

boxBot: Claude와 Hailo AI로 구동되는 오픈소스 스마트 스피커

FunScore645라는 개발자가 Claude를 사용해 에이전트 주도 하드웨어 제어를 구현한 스마트 스피커 boxBot을 Raspberry Pi, Hailo AI 가속기, 커스텀 SDK로 만들었으며, GitHub에 오픈소스로 공개했습니다.

OpenClawRadar
셀프웨어: PDVR 아키텍처를 갖춘 Rust 기반 로컬 AI 에이전트 프레임워크
Tools

셀프웨어: PDVR 아키텍처를 갖춘 Rust 기반 로컬 AI 에이전트 프레임워크

Selfware는 로컬 추론을 위해 Rust로 구축된 오픈소스 AI 에이전트 프레임워크로, 54개의 내장 도구를 갖춘 PDVR 인지 사이클을 구현하고 소비자용 하드웨어에서 장기 실행 작업을 위해 설계되었습니다.

OpenClawRadar
클로드-세션: 클로드 코드 기록을 탐색하기 위한 터미널 UI
Tools

클로드-세션: 클로드 코드 기록을 탐색하기 위한 터미널 UI

claude-sessions는 로컬 Claude Code 기록 파일을 스캔하여 개발자들이 과거 세션을 탐색, 검색, 재개할 수 있도록 하는 오픈소스 터미널 UI 도구입니다. Claude Code 자체로 구축되었으며, WASD 탐색, 키워드 검색, 원클릭 세션 재개 기능을 갖추고 있습니다.

OpenClawRadar
에이전트 관찰: Claude 코드 에이전트 팀 모니터링을 위한 실시간 대시보드
Tools

에이전트 관찰: Claude 코드 에이전트 팀 모니터링을 위한 실시간 대시보드

Agents Observe는 OTEL 대신 훅을 사용하여 Claude Code 에이전트 세션에 대한 실시간 가시성을 제공하는 로컬 대시보드입니다. 모든 도구 호출, 에이전트 계층 구조 및 이벤트를 필터링 및 검색 기능과 함께 캡처하며, Claude 세션과 함께 자동 시작되는 Docker 컨테이너로 실행됩니다.

OpenClawRadar