Kanari KI-QA-Agent: Automatisierte Tests via Codeänderungen

Was Canary macht

Canary entwickelt KI-Agenten, die sich mit Ihrer Codebasis verbinden, um die Anwendungsstruktur einschließlich Routen, Controllern und Validierungslogik zu verstehen. Wenn Sie einen Pull-Request pushen, liest er den Diff, versteht die Absicht hinter den Änderungen und generiert und führt dann Tests gegen Ihre Vorschau-App aus, um echte Benutzerabläufe end-to-end zu prüfen.

Hauptmerkmale

Analysiert PR-Diffs, um zu verstehen, was sich tatsächlich geändert hat
Generiert und führt Tests für jeden betroffenen Benutzerablauf durch
Kommentiert direkt in PRs mit Testergebnissen und Bildschirmaufzeichnungen
Markiert Verhaltensweisen, die nicht den Erwartungen entsprechen
Ermöglicht das Auslösen spezifischer Benutzerablauftests über PR-Kommentare
Aus PRs generierte Tests können in Regressionssuites übernommen werden
Erstellen Sie Tests durch Eingabeaufforderungen in einfachem Englisch – Canary generiert vollständige Testsuites aus Ihrer Codebasis
Plant und führt Tests kontinuierlich aus

Technischer Ansatz

Laut den Gründern ist dies keine Aufgabe, die ein einzelnes Basismodell allein bewältigen kann. QA umfasst mehrere Modalitäten: Quellcode, DOM/ARIA, Geräteemulatoren, visuelle Verifizierungen, Bildschirmaufzeichnungsanalyse, Netzwerk-/Konsolenprotokolle und Live-Browserstatus. Das System benötigt benutzerdefinierte Browser-Flotten, Benutzersitzungen, kurzlebige Umgebungen, On-Device-Farmen und Datenseeding, um Tests zuverlässig auszuführen.

Das Erkennen von Effekten zweiter Ordnung bei Codeänderungen erfordert ein spezielles Testgerüst, das Anwendungen auf vielfältige Weise für verschiedene Benutzertypen testet, die normale Happy-Path-Tests nicht abdecken würden.

Benchmark-Ergebnisse

Das Team veröffentlichte QA-Bench v0, den ersten Benchmark für Codeverifizierung. Sie testeten ihren speziell entwickelten QA-Agent gegen GPT 5.4, Claude Code (Opus 4.6) und Sonnet 4.6 anhand von 35 echten PRs für Grafana, Mattermost, Cal.com und Apache Superset. Die Tests maßen drei Dimensionen: Relevanz, Abdeckung und Kohärenz.

Die Abdeckung zeigte die größte Leistungslücke. Canary führt mit:

11 Punkten vor GPT 5.4
18 Punkten vor Claude Code
26 Punkten vor Sonnet 4.6

Praktisches Beispiel

Ein Kunde aus der Bautechnik hatte einen Rechnungsablauf, bei dem der fällige Betrag vom ursprünglichen Angebotssumme um etwa 1.600 US-Dollar abwich. Canary erkannte diese Regression in ihrem Rechnungsablauf vor der Veröffentlichung.

Hintergrund der Gründer

Die Gründer entwickelten zuvor KI-Codierungstools bei Windsurf, Cognition und Google. Sie beobachteten, dass KI-Tools Teams zwar schneller beim Ausliefern machten, aber niemand das tatsächliche Benutzerverhalten vor dem Merge testete, was zu Produktionsproblemen bei Checkout-, Authentifizierungs- und Abrechnungsabläufen führte.

📖 Read the full source: HN AI Agents