カーソルのAIエージェント向け高速正規表現検索アプローチ

エージェントワークフローにおける正規表現パフォーマンスへの対応
Cursorは、大規模なコードベースで従来のripgrepのような正規表現ツールがワークフローを停滞させるボトルネックに対処するため、AIコーディングエージェント向けにインデックス付き正規表現検索を開発しています。この問題は、rgの呼び出しが頻繁に15秒を超え、AIエージェントのインタラクティブなガイダンスを妨げるエンタープライズのモノレポで特に深刻です。
現在のツールの根本的な問題
Cursorを含むほとんどのAIエージェントハーネスは、正規表現検索にripgrepを使用するのがデフォルトです。ripgrepは、ファイル無視の適切なデフォルト設定により従来のgrepよりも優れたパフォーマンスを提供しますが、1つの根本的な制限があります:すべてのファイルの内容をスキャンしなければならないことです。これは、開発者がAIエージェントとリアルタイムで対話する必要がある大規模なコードベースでは問題となります。
古典的な研究に基づくインデックス手法
このインデックス手法は、1993年にZobel、Moffat、Sacks-Davisが発表した「Searching Large Lexicons for Partially Specified Terms using Compressed Inverted Files」の研究に基づいています。この方法では、n-gram(n文字の文字列セグメント)を使用して転置インデックスを作成し、正規表現をインデックスで検索可能なn-gramのツリーに分解するヒューリスティックを適用します。
転置インデックスの仕組み
転置インデックスは、検索エンジンの背後にある基本的なデータ構造です。文書はトークン化(この場合、個々の単語をトークンとして)を通じてトークンに分割されます。これらのトークンは辞書のような構造のキーとなり、値は各トークンを含むすべての文書を識別するポスティングリストです。複数のトークンを検索する場合、システムはそれらのポスティングリストを読み込み、指定されたすべての用語を含む文書を見つけるために交差させます。
このアプローチは、従来のIDEが「定義へ移動」などの操作のために構文インデックスを作成する方法に類似していますが、現代のAIエージェントがテキストを検索する際に実行する正規表現検索操作に特化しています。
📖 完全なソースを読む: HN AI Agents
👀 See Also

リレー:OpenClaw AIエージェントのためのオープンソース制御プレーン
Relayは、Claude CoworkのようなワークフローをOpenClawに提供するElectronデスクトップアプリです。お客様のインフラストラクチャ上で動作し、選択したLLMモデルを使用でき、承認ゲートやエクスポート可能な監査証跡などの組み込みガバナンス機能を備えています。

Claude Hindsight: Claudeコードセッション用可観測性ツール
Claude Hindsightは、Claude Code用のオープンソースの可観測性レイヤーで、ツール呼び出し、トークン、エラーを探索可能なダッシュボードに記録します。作成者はこれを利用して、733回のツール呼び出しと692.8Mのキャッシュトークンを伴う11時間の単一セッションでオープンソースプロジェクトをリファクタリングしました。

SkyClaw:Telegram制御を備えたクラウドVPS向けRust AIエージェントランタイム
SkyClawは、クラウドVPSへのデプロイを目的とした6.9 MBのRustベースAIエージェントランタイムで、Telegramを唯一のインターフェースとして設計されています。シェルコマンドの実行、ヘッドレスChromeによるウェブ閲覧、ファイルの読み書き、URLの取得、マルチラウンドのツールチェーン機能を備えています。

Event Horizon VS Code拡張機能は、複数のAIエージェント向けにファイルロックと計画調整機能を追加します。
Event Horizonは、Claude Codeの可視化ツールとして作成されたVS Code拡張機能ですが、現在ではファイルロックと計画調整機能を追加し、複数のAIエージェントが同じコードベースで互いの作業を上書きするのを防ぐよう進化しました。このツールはClaude Code、OpenCode、Copilotをワンクリック設定でサポートしています。