ベンチマークによると、AIブラウザ自動化ツールは、同一の精度にもかかわらず、トークンコストが2.6倍も異なることが示されています。

✍️ OpenClawRadar📅 公開日: March 17, 2026🔗 Source
ベンチマークによると、AIブラウザ自動化ツールは、同一の精度にもかかわらず、トークンコストが2.6倍も異なることが示されています。
Ad

ベンチマーク結果:同じ精度、異なるコスト

同じモデル(Claude Sonnet 4.6)を使用して、4つのCLIブラウザ自動化ツールを、実稼働中のウェブサイトに対する6つの実世界タスクでテストしたベンチマークが実施されました。すべてのツールは18回のタスク実行で100%の精度を記録しましたが、トークン使用量は劇的に異なりました:

  • openbrowser-ai: 36,010トークン / 84.8秒 / 15.3回のツール呼び出し
  • browser-use: 77,123トークン / 106.0秒 / 20.7回のツール呼び出し
  • playwright-cli(Microsoft): 94,130トークン / 118.3秒 / 25.7回のツール呼び出し
  • agent-browser(Vercel): 90,107トークン / 99.0秒 / 25.0回のツール呼び出し

Openbrowser-aiは他のツールよりも2.1倍から2.6倍少ないトークンを使用しました。このベンチマークでは、ツール呼び出し回数がトークンコストの最も強力な予測因子であることがわかりました。なぜなら、各呼び出しがLLMに会話履歴全体を再処理させるからです。

Ad

実装方法におけるツールの違い

4つのツールすべてが、バックグラウンドデーモンによる永続的なブラウザセッションを維持し、サーバーサイドでJavaScriptを実行して結果のみを返し、ページ状態をコンパクトにすることに取り組み、何らかの形式のコード実行をサポートしています。

browser-useは個別のCLIコマンドを公開します:open、click、input、scroll、state、eval。LLMはツール呼び出しごとに1つのコマンドを発行します。evalはページコンテキストでJavaScriptを実行します。ページ状態は、ページあたり約880文字の[N]インデックス付きの拡張DOMツリーです。cdp-useライブラリを介してChromeと直接CDPで通信します。

agent-browserは同様のパターンに従います:open、click、fill、snapshot、eval。これはChromeと直接CDPで通信するネイティブのRustバイナリです。ページ状態はu/eN参照付きのアクセシビリティツリーです。-iフラグは約590文字のコンパクトなインタラクティブ専用出力を生成します。コマンドは&&で連結できますが、それぞれが依然として個別のデーモンリクエストです。

playwright-cliは個別のコマンドに加えて、完全なAPIアクセスを持つ任意のPlaywright JavaScriptを受け入れるrun-codeを提供します。LLMはrun-code "async page => { await page.goto('url'); await page.click('.btn'); return await page.title(); }"のようなコードを記述し、1回の呼び出しで複数の操作を実行できます。ページ状態は約1,420文字の.ymlファイルに保存されるアクセシビリティツリーで、最初の読み取り後の差分のみを送信するインクリメンタルスナップショットを備えています。

openbrowser-aiには個別のコマンドがまったくありません。唯一のインターフェースは-cを介したPythonコードです:

openbrowser-ai -c 'await navigate("https://en.wikipedia.org/wiki/Python") info = await evaluate("document.querySelector('.infobox')?.innerText") print(info)'

navigate、click、input_text、evaluate、scrollは、永続的な名前空間内の非同期Python関数です。ページ状態は約450文字の[i_N]インデックス付きDOMです。変数はJupyterノートブックのように呼び出しをまたいで保持されます。

このベンチマークでは、LLMがOpenBrowserでは他のツール(20〜26回)と比べて少ないツール呼び出し(15.3回)を行ったことが観察されました。著者らは、コード専用インターフェースが操作のバッチ処理を自然に促すためだと指摘しています。

📖 完全なソースを読む: r/ClaudeAI

Ad

👀 See Also

ClawWatcher、200ユーザー達成、OpenClaw APIによる総節約額は2万8千ドル以上と報告
Tools

ClawWatcher、200ユーザー達成、OpenClaw APIによる総節約額は2万8千ドル以上と報告

OpenClaw APIコストをリアルタイムで追跡するツール「ClawWatcher」が200ユーザーに到達。開発者によると、ユーザーは合計28,000ドル以上のAPIコストを節約し、平均コスト削減率は45%に上る。

OpenClawRadar
Qure: 記録されたブラウザ操作フローからE2Eテストを生成するデスクトップアプリ
Tools

Qure: 記録されたブラウザ操作フローからE2Eテストを生成するデスクトップアプリ

QureはJetBrainsが開発したデスクトップアプリケーション(現在はクローズドベータ版)で、内蔵ブラウザで記録した操作からエンドツーエンドのWebテストコードを生成します。開発者はAIエージェントにテキストでテストフローを説明する代わりに、製品を操作して手動QAシナリオを記録し、AIが既存のコードベースに合った動作するテストコードを作成します。

OpenClawRadar
Claude Code用の永続的サイドパネルと自律的なコンテンツ管理
Tools

Claude Code用の永続的サイドパネルと自律的なコンテンツ管理

開発者が、ターミナルの横にあるiTerm2の分割ペイン内に配置するTUIパネルを作成しました。このパネルには3つの固定パネルがあり、Claudeが自律的にコード、図解、ステータス更新などの関連コンテンツを表示します。

OpenClawRadar
インク:Claude AIエージェントが主なユーザーであるデプロイメントプラットフォーム
Tools

インク:Claude AIエージェントが主なユーザーであるデプロイメントプラットフォーム

Ink(ml.ink)は、ClaudeのようなAIエージェント向けに設計されたデプロイメントプラットフォームで、1回のツール呼び出しでのデプロイ、フレームワークの自動検出、コンピュート、データベース、DNS、シークレット、ドメイン、メトリクス、ログなどの統合サービスを特徴としています。

OpenClawRadar