AIサブルーチン:ゼロトークンコストでの決定論的ブラウザ自動化

AIサブルーチンの機能
AIサブルーチンは、ブラウザタスクを一度記録し、呼び出し可能なツールとして保存します。これにより、トークンコストゼロ、LLM推論遅延ゼロ、100%の決定性で再生できます。生成されたスクリプトは、プロキシ、ヘッドレスワーカー、または外部プロセスソリューションを介さず、ウェブページ自体内で実行されます。
主要なアーキテクチャ上の決定
スクリプトはウェブページの実行コンテキスト内で実行されるため、すべての認証情報、CSRFトークン、TLSセッション、署名付きヘッダーが自動的にリクエストに追加されます。証明書のインストール、TLSフィンガープリントの変更、別個の認証スタックのメンテナンスは不要です。
記録メカニズム
記録中、拡張機能は2層を使用してネットワークリクエストを傍受します:
- ページスクリプトが実行される前にインストールされるMAIN-world fetch/XHRパッチ
- CORSおよびサービスワーカーパス用の相関フォールバックとしてのChromeのwebRequest API
JSONだけでなく、FormData、Blob、生バイトを含むリクエストボディもキャプチャされます。
ネットワークキャプチャ処理
システムは、複数のシグナルに基づいて約300のリクエストを約5つにスコアリングして削減します:
- ファーストパーティとサードパーティのオリジン(+20 / −15)
- 既知のテレメトリホスト(Sentry、Segment、Hotjar、RUM):−80
- DOMイベントとの時間的相関(800ms以内:+28、2.5秒以内:+16)
- メソッドとペイロード形状(変更を加えるPOST/PUT/PATCH/DELETE:+35;GET:+5;リクエストボディあり:+8)
- レスポンス品質(2xx:+12;4xx以上:−25;空でないボディ:+4)
- 揮発性の操作識別子(−18)GraphQLのqueryId、doc_id、operationHash用
揮発性のGraphQL操作IDは、次回実行時に黙って失敗する前に、DOMのみのフォールバックをトリガーします。
生成されたコード構造
生成されたコードは、ネットワーク呼び出しとDOMアクション(クリック、入力、検索)をrtrvr.*ヘルパー名前空間を介して同じ関数内で結合します。上位5つのランク付けされたリクエストとDOMインタラクションが、ジェネレーター用に12,000文字のコンテキストにレンダリングされます。
使用パターン
AIエージェントを500行のスプレッドシートに向けると、わずか1回のLLM呼び出しでパラメータが割り当てられ、500のサブルーチンが起動されます。
主要なユースケース
- Instagram DMの送信を記録し、トークンコストゼロでDMを送信する再利用可能なルーチンを作成
- サイトカタログの最新製品を取得するルーチンを作成し、直接GraphQLクエリを介して数千の製品を取得
- 現在のページコンテキストからAIがパラメータを推論し、EHRフォームを提出するルーチンを設定
- MCPサーバーを使用して、LinkedIn/Slack/Gmailの送信メッセージをCRMに毎日同期するルーチンを再利用
なぜこれが重要なのか
繰り返しタスクのためのブラウザエージェントの根本的な問題は、推論ループを経ることが不要であることです。一度記録し、LLMがすべての可能なインタラクションメソッド(直接API呼び出し、DOMインタラクション、サードパーティツール/API/MCPサーバー)を活用するスクリプトを生成することで、決定論的でコスト効果の高い自動化を実現します。
📖 Read the full source: HN LLM Tools
👀 See Also

OpenClawとClaude Coworkの比較:ローカル自動化 vs サンドボックス化されたワークフロー
OpenClawは、シェルコマンドの実行とブラウザ自動化を備え、マシン上で常時稼働するローカルエージェントです。一方、Claude CoworkはClaude Desktop内で動作し、ドキュメントとブラウザタスクに特化したサンドボックス環境で稼働します。

スケルペル v2.0:コードベーススキャナーおよびAIエージェントオーケストレーター
Scalpel v2.0は、コードベースを12の次元でスキャンし、カスタムAIエージェントチームを構築するオープンソースツールです。AIトークンを必要としない純粋なbashスキャナーを含み、Claude Code、Codex、Gemini、Cursor、Windsurf、Aider、OpenCodeと連携します。

NLAがGemma 3の内部活性化を任意のトークンに対して可読テキストに変換
Anthropicが、モデルの内部状態をテキストにデコードするNatural Language Autoencoders(NLA)を公開。Gemma 3と組み合わせたAuto Verbalizerは、生成された任意のトークンについてモデルが「考えていた」内容を説明します。重みはHugging Faceで、デモはNeuronpediaで公開されています。

iOSシミュレータの操作とデバッグのためのPepper MCPサーバー
Pepperは、DYLD_INSERT_LIBRARIESを介してiOSシミュレータアプリにdylibを注入するMCPサーバーであり、WebSocketブリッジを通じてリアルタイムなインタラクション、画面読み取り、ボタンタップ、変数検査、ネットワークトラフィック監視を可能にします。