TREX: 코드를 실제로 실행하는 AI 코드 리뷰어

Greptile이 TREX(Test, Run, Execute)를 출시했습니다. TREX는 AI 기반 코드 리뷰 중 코드를 실행하는 실행 계층입니다. 단순히 diff를 읽는 대신, TREX는 변경된 코드를 실제로 실행하여 정적 분석이 잡을 수 없는 런타임 버그(UI 회귀, 상태 의존적 로직 오류, 경쟁 조건)를 표면화합니다.

아키텍처: 오케스트레이터 + 이슈별 서브에이전트

초기 버전에서는 별도의 에이전트나 단일 통합 에이전트를 사용했지만 둘 다 실패했습니다. 별도 에이전트는 공유 컨텍스트 없이 작업을 중복했고, 단일 에이전트는 설정, 스크린샷, 테스트를 관리하는 데 과부하가 걸렸습니다. 해결책은 오케스트레이터 에이전트(메인 Greptile 리뷰어)가 diff를 읽고 의심스러운 이슈를 식별한 후, 이슈별로 전용 TREX 서브에이전트를 병렬로 실행하는 것이었습니다. 각 서브에이전트는 오케스트레이터의 컨텍스트를 상속받고 자신의 조사 범위에 맞는 별도의 컨텍스트 창을 가집니다.

예: 인증 게이트 뒤에 있는 UI 기능. 서브에이전트가 자율적으로 환경을 설정하고, 인증을 처리하며, 기능 플래그를 토글한 후 렌더링된 기능의 스크린샷을 반환합니다.

멀티모달 아티팩트 vs. 글머리 기호

초기 TREX 출력은 글머리 기호 요약이었지만, 글머리 기호는 환각(예: 테스트가 통과했다고 주장했지만 실제로는 실패)을 허용하고 검증 방법이 없었습니다. 해결책: 각 TREX 결과는 멀티모달 아티팩트 세트(스크린샷, 실행 로그, API 추적, 실행 스크립트)로 뒷받침됩니다. 각 모달리티가 일부 스토리를 전달하여 실제 발생한 일을 정확히 추적할 수 있습니다. 팀을 감동시킨 첫 번째 아티팩트는 애니메이션 변경의 비디오 캡처로, 실제 런타임 효과를 보여주었습니다.

잡아내는 것

TREX는 코드 diff에 나타나지 않는 버그를 대상으로 합니다: 특정 상태 시퀀스가 필요한 로직 오류, 페이지 로드 후 UI 회귀, 실제 요청이 필요한 경쟁 조건. 테스트를 생성하고 실행하지만, 초점은 테스트 작성이 아닌 버그 찾기에 있습니다. 서브에이전트는 스스로 설정을 파악합니다.

TREX를 개발한 엔지니어 Shlok Mehrotra의 말: "diff를 완벽하게 읽어도 이런 유형의 버그를 완전히 놓칠 수 있습니다."

📖 전체 소스 읽기: HN AI Agents