カナリア AI QAエージェント：コード変更から自動テスト生成

カナリアの機能

カナリアは、ルート、コントローラー、バリデーションロジックを含むアプリケーション構造を理解するために、コードベースに接続するAIエージェントを構築します。プルリクエストをプッシュすると、差分を読み取り、変更の意図を理解し、実際のユーザーワークフローをエンドツーエンドでチェックするためにプレビューアプリに対してテストを生成・実行します。

主な特徴

実際に変更された内容を理解するためにPR差分を分析
影響を受けるすべてのユーザーワークフローに対してテストを生成・実行
テスト結果と画面録画をPRに直接コメント
期待と一致しない動作をフラグ付け
PRコメント経由で特定のユーザーワークフローテストをトリガー可能
PRから生成されたテストを回帰テストスイートに移行可能
平易な英語でプロンプトしてテストを作成 - カナリアがコードベースから完全なテストスイートを生成
テストを継続的にスケジュール・実行

技術的アプローチ

創業者によれば、これは単一の基盤モデルだけでは対応できない領域です。QAは複数のモダリティにまたがります：ソースコード、DOM/ARIA、デバイスエミュレーター、視覚的検証、画面録画分析、ネットワーク/コンソールログ、ライブブラウザ状態など。システムは、テストを確実に実行するために、カスタムブラウザーフリート、ユーザーセッション、エフェメラル環境、オンデバイスファーム、データシーディングを必要とします。

コード変更の二次的影響を捕捉するには、通常の正常系テストではカバーできない、異なるユーザータイプにわたってアプリケーションを複数の可能な方法で壊す特殊なハーネスが必要です。

ベンチマーク結果

チームは、コード検証の最初のベンチマークであるQA-Bench v0を公開しました。彼らは、Grafana、Mattermost、Cal.com、Apache Supersetの35の実際のPRに対して、GPT 5.4、Claude Code（Opus 4.6）、Sonnet 4.6と比較して、独自に構築したQAエージェントをテストしました。テストは、関連性、カバレッジ、一貫性の3つの次元を測定しました。

カバレッジで最大のパフォーマンス差が示されました。カナリアは以下をリードしています：

GPT 5.4に対して11ポイント
Claude Codeに対して18ポイント
Sonnet 4.6に対して26ポイント

実世界の例

ある建設技術顧客は、請求額が元の提案合計から約1,600ドルずれる請求フローがありました。カナリアは、リリース前にこの請求フローの回帰を捕捉しました。

創業者の背景

創業者は以前、Windsurf、Cognition、GoogleでAIコーディングツールを構築していました。彼らは、AIツールがチームの出荷速度を向上させる一方で、マージ前に実際のユーザー行動をテストする者がおらず、チェックアウト、認証、課金フローでの本番環境の問題につながっていることを観察しました。

📖 Read the full source: HN AI Agents