TREX: コードを実行するGreptileのAIコードレビューア

GreptileがTREX(Test, Run, Execute)をリリースしました。これはAI駆動のコードレビュー中にコードを実行するレイヤーです。TREXは差分を読むだけでなく、変更されたコードを実際に実行し、静的解析ではキャッチできないUIリグレッション、状態依存のロジックエラー、競合状態などのランタイムバグを表面化させます。
アーキテクチャ:オーケストレーター+問題別サブエージェント
初期バージョンでは、個別のエージェントまたは単一の統合エージェントを試みました。どちらも失敗しました。個別エージェントは共有コンテキストがなく作業が重複し、単一エージェントはセットアップ、スクリーンショット、テストの管理で過負荷になりました。解決策は、差分を読み、疑わしい問題を特定し、問題ごとに専用のTREXサブエージェントを起動するオーケストレーターエージェント(メインのGreptileレビュアー)で、これらはすべて並行して動作します。各サブエージェントはオーケストレーターのコンテキストを継承し、独自の調査にスコープされた独自のコンテキストウィンドウを持ちます。
例:認証ゲートの背後にあるUI機能。サブエージェントが自律的に環境をセットアップし、認証を処理し、機能フラグを切り替え、レンダリングされた機能のスクリーンショットを返します。
マルチモーダル成果物 vs 箇条書き
初期のTREX出力は箇条書きの要約でしたが、箇条書きでは幻覚を許し(例:テストが実際には失敗しているのに合格したと主張)、検証方法がありませんでした。修正策:各TREXの発見には、マルチモーダル成果物(スクリーンショット、実行ログ、APIトレース、実行スクリプト)のセットがバックアップとして付随します。各モダリティがストーリーの一部を語り、実際に何が起こったかを正確にトレースできます。チームを最初に感動させた成果物は、アニメーション変更の動画キャプチャでした。実際の実行時効果を示しています。
キャッチするもの
TREXはコード差分に現れないバグを狙います:特定の状態シーケンスが必要なロジックエラー、ページロード後のUIリグレッション、実際のリクエストを必要とする競合状態。テストを生成して実行しますが、焦点はバグを見つけることであり、単にテストを書くことではありません。サブエージェントはセットアップを自律的に行います。
TREXの背後にあるエンジニア、Shlok Mehrotra氏が言うように:「差分を完璧に読んでも、これらのタイプのバグを完全に見逃す可能性があります。」
📖 全文ソースはこちら: HN AI Agents
👀 See Also

AnthropicがClaudeをオープンソース化:契約レビュー、NDAトリアージなどのプラグインスイート
Anthropicは、Claude for Legalを公開しました。これは、ベンダー契約レビュー、NDAトリアージ、規制モニタリングなどの法務ワークフロー向けのプラグイン、エージェント、MCPコネクタのリポジトリです。

OpenSwarm:線形およびGitHub用のマルチエージェントClaude CLIオーケストレータ
OpenSwarmは、複数のClaude Code CLIインスタンスを自律エージェントとしてオーケストレーションし、Linearの課題を取得してWorker/Reviewer/Test/Documenterパイプラインを実行します。メモリにはLanceDBと多言語e5埋め込みを使用し、Discordボット制御、PR自動改善、ウェブダッシュボードを備えています。
Claude Garmin MCPサーバー:よりスマートなトレーニングアドバイスのためのリアルフィットネスデータ
Claude DesktopをGarmin Connectに接続するMCPサーバー。8つのツール(回復準備度、HRV、VO2maxなど)を提供し、データに基づいたトレーニング計画を可能にします。

d3ラボによる実世界APIを用いたAIエージェントのテスト
d3 labsは、開発者が非現実的なモックに頼る代わりに、実際のシナリオでAIエージェントをテストできるようにする10個の無料プロダクションAPIを提供します。