TREX：コードを実際に実行するAIコードレビュアー

GreptileがTREX（Test, Run, Execute）をリリースしました。これはAI駆動のコードレビュー中にコードを実行するレイヤーです。TREXは差分を読むだけでなく、変更されたコードを実際に実行し、静的解析ではキャッチできないUIリグレッション、状態依存のロジックエラー、競合状態などのランタイムバグを表面化させます。

アーキテクチャ：オーケストレーター＋問題別サブエージェント

初期バージョンでは、個別のエージェントまたは単一の統合エージェントを試みました。どちらも失敗しました。個別エージェントは共有コンテキストがなく作業が重複し、単一エージェントはセットアップ、スクリーンショット、テストの管理で過負荷になりました。解決策は、差分を読み、疑わしい問題を特定し、問題ごとに専用のTREXサブエージェントを起動するオーケストレーターエージェント（メインのGreptileレビュアー）で、これらはすべて並行して動作します。各サブエージェントはオーケストレーターのコンテキストを継承し、独自の調査にスコープされた独自のコンテキストウィンドウを持ちます。

例：認証ゲートの背後にあるUI機能。サブエージェントが自律的に環境をセットアップし、認証を処理し、機能フラグを切り替え、レンダリングされた機能のスクリーンショットを返します。

マルチモーダル成果物 vs 箇条書き

初期のTREX出力は箇条書きの要約でしたが、箇条書きでは幻覚を許し（例：テストが実際には失敗しているのに合格したと主張）、検証方法がありませんでした。修正策：各TREXの発見には、マルチモーダル成果物（スクリーンショット、実行ログ、APIトレース、実行スクリプト）のセットがバックアップとして付随します。各モダリティがストーリーの一部を語り、実際に何が起こったかを正確にトレースできます。チームを最初に感動させた成果物は、アニメーション変更の動画キャプチャでした。実際の実行時効果を示しています。

キャッチするもの

TREXはコード差分に現れないバグを狙います：特定の状態シーケンスが必要なロジックエラー、ページロード後のUIリグレッション、実際のリクエストを必要とする競合状態。テストを生成して実行しますが、焦点はバグを見つけることであり、単にテストを書くことではありません。サブエージェントはセットアップを自律的に行います。

TREXの背後にあるエンジニア、Shlok Mehrotra氏が言うように：「差分を完璧に読んでも、これらのタイプのバグを完全に見逃す可能性があります。」

📖 全文ソースはこちら： HN AI Agents

TREX: コードを実行するGreptileのAIコードレビューア

アーキテクチャ：オーケストレーター＋問題別サブエージェント

マルチモーダル成果物 vs 箇条書き

キャッチするもの

👀 See Also

AnthropicがClaudeをオープンソース化：契約レビュー、NDAトリアージなどのプラグインスイート

OpenSwarm：線形およびGitHub用のマルチエージェントClaude CLIオーケストレータ

Claude Garmin MCPサーバー：よりスマートなトレーニングアドバイスのためのリアルフィットネスデータ

d3ラボによる実世界APIを用いたAIエージェントのテスト