TREX: KI-Code-Review, der Ihren Code tatsächlich ausführt

Greptile hat TREX (Test, Run, Execute) veröffentlicht, eine Ausführungsebene, die Ihren Code während des KI-gestützten Code-Reviews ausführt. Anstatt nur Diffs zu lesen, führt TREX den geänderten Code tatsächlich aus und deckt Laufzeitfehler auf – UI-Regressionen, zustandsabhängige Logikfehler, Race Conditions – die die statische Analyse nicht erkennen kann.

Architektur: Orchestrator + Subagents pro Problem

Frühere Versionen versuchten separate Agents oder einen einzigen kombinierten Agenten. Beide scheiterten: Separate Agents duplizierten Arbeit ohne gemeinsamen Kontext; ein einzelner Agent war überfordert mit der Verwaltung von Setup, Screenshots und Tests. Die Lösung war ein Orchestrator-Agent (der Haupt-Greptile-Reviewer), der den Diff liest, verdächtige Probleme identifiziert und einen dedizierten TREX-Subagenten pro Problem startet, die alle parallel laufen. Jeder Subagent erbt den Kontext des Orchestrators und hat sein eigenes Kontextfenster, das auf seine spezifische Untersuchung zugeschnitten ist.

Beispiel: eine UI-Funktion hinter einer Authentifizierungssperre. Ein Subagent richtet autonom die Umgebung ein, kümmert sich um die Authentifizierung, schaltet Feature-Flags um und gibt einen Screenshot der gerenderten Funktion zurück.

Multimodale Artefakte vs. Aufzählungspunkte

Die erste TREX-Ausgabe bestand aus zusammenfassenden Aufzählungspunkten – aber Aufzählungspunkte erlaubten Halluzinationen (z. B. die Behauptung, ein Test sei bestanden, obwohl er es nicht war) und boten keine Möglichkeit zur Überprüfung. Die Lösung: Jeder TREX-Befund wird durch einen Satz multimodaler Artefakte untermauert: Screenshots, Ausführungsprotokolle, API-Traces und Ausführungsskripte. Jede Modalität erzählt einen Teil der Geschichte und ermöglicht es, genau nachzuvollziehen, was passiert ist. Das erste Artefakt, das das Team beeindruckte, war eine Video-Aufnahme einer Animationsänderung – die den tatsächlichen Laufzeiteffekt zeigt.

Was es erwischt

TREX zielt auf Fehler ab, die nicht in Code-Diffs auftauchen: Logikfehler, die bestimmte Zustandssequenzen erfordern, UI-Regressionen nach dem Seitenladen und Race Conditions, die echte Anfragen benötigen. Es generiert und führt Tests aus, aber der Fokus liegt auf dem Finden von Fehlern, nicht nur auf dem Schreiben von Tests. Der Subagent findet das Setup selbst heraus.

Wie Shlok Mehrotra, der Ingenieur hinter TREX, es ausdrückt: „Man kann den Diff perfekt lesen und diese Art von Fehlern dennoch völlig übersehen.“

📖 Lesen Sie die vollständige Quelle: HN AI Agents

TREX: Greptiles AI-Code-Reviewer, der Ihren Code ausführt

Architektur: Orchestrator + Subagents pro Problem

Multimodale Artefakte vs. Aufzählungspunkte

Was es erwischt

👀 Siehe auch

Entwickler baut KI-Framework mit 17 biologischen Prinzipien unter Verwendung von Claude Code

Skales Desktop AI Agent, entwickelt mit Claude, verfügt über einen Clippy-ähnlichen Maskottchen-Stil

ClawControl v1.7.1 behebt Probleme bei der täglichen Nutzung des OpenClaw-Clients.

Vier ClawHub-Fähigkeiten für Echtzeit-Suchdaten in KI-Agenten