AIサブルーチン：ゼロトークンコストでブラウザ自動化を決定論的に

AIサブルーチンの機能

AIサブルーチンは、ブラウザタスクを一度記録し、呼び出し可能なツールとして保存します。これにより、トークンコストゼロ、LLM推論遅延ゼロ、100%の決定性で再生できます。生成されたスクリプトは、プロキシ、ヘッドレスワーカー、または外部プロセスソリューションを介さず、ウェブページ自体内で実行されます。

主要なアーキテクチャ上の決定

スクリプトはウェブページの実行コンテキスト内で実行されるため、すべての認証情報、CSRFトークン、TLSセッション、署名付きヘッダーが自動的にリクエストに追加されます。証明書のインストール、TLSフィンガープリントの変更、別個の認証スタックのメンテナンスは不要です。

記録メカニズム

記録中、拡張機能は2層を使用してネットワークリクエストを傍受します：

ページスクリプトが実行される前にインストールされるMAIN-world fetch/XHRパッチ
CORSおよびサービスワーカーパス用の相関フォールバックとしてのChromeのwebRequest API

JSONだけでなく、FormData、Blob、生バイトを含むリクエストボディもキャプチャされます。

ネットワークキャプチャ処理

システムは、複数のシグナルに基づいて約300のリクエストを約5つにスコアリングして削減します：

ファーストパーティとサードパーティのオリジン（+20 / −15）
既知のテレメトリホスト（Sentry、Segment、Hotjar、RUM）：−80
DOMイベントとの時間的相関（800ms以内：+28、2.5秒以内：+16）
メソッドとペイロード形状（変更を加えるPOST/PUT/PATCH/DELETE：+35；GET：+5；リクエストボディあり：+8）
レスポンス品質（2xx：+12；4xx以上：−25；空でないボディ：+4）
揮発性の操作識別子（−18）GraphQLのqueryId、doc_id、operationHash用

揮発性のGraphQL操作IDは、次回実行時に黙って失敗する前に、DOMのみのフォールバックをトリガーします。

生成されたコード構造

生成されたコードは、ネットワーク呼び出しとDOMアクション（クリック、入力、検索）をrtrvr.*ヘルパー名前空間を介して同じ関数内で結合します。上位5つのランク付けされたリクエストとDOMインタラクションが、ジェネレーター用に12,000文字のコンテキストにレンダリングされます。

使用パターン

AIエージェントを500行のスプレッドシートに向けると、わずか1回のLLM呼び出しでパラメータが割り当てられ、500のサブルーチンが起動されます。

主要なユースケース

Instagram DMの送信を記録し、トークンコストゼロでDMを送信する再利用可能なルーチンを作成
サイトカタログの最新製品を取得するルーチンを作成し、直接GraphQLクエリを介して数千の製品を取得
現在のページコンテキストからAIがパラメータを推論し、EHRフォームを提出するルーチンを設定
MCPサーバーを使用して、LinkedIn/Slack/Gmailの送信メッセージをCRMに毎日同期するルーチンを再利用

なぜこれが重要なのか

繰り返しタスクのためのブラウザエージェントの根本的な問題は、推論ループを経ることが不要であることです。一度記録し、LLMがすべての可能なインタラクションメソッド（直接API呼び出し、DOMインタラクション、サードパーティツール/API/MCPサーバー）を活用するスクリプトを生成することで、決定論的でコスト効果の高い自動化を実現します。

📖 Read the full source: HN LLM Tools