ローカルQwenモデルが段階的計画とコンパクトなDOMでブラウザ自動化を実現

✍️ OpenClawRadar📅 公開日: March 17, 2026🔗 Source
ローカルQwenモデルが段階的計画とコンパクトなDOMでブラウザ自動化を実現
Ad

段階的計画は事前計画の失敗を克服

開発者は、実際のページ状態を見る前にモデルに完全な多段階計画を立案させることは、慣れたサイトでは機能するが、予期しない要素があるとすぐに破綻することを発見しました。より効果的だったのは、各ステップで現在のDOMスナップショットから再計画する段階的計画でした。

Ace Hardwareでの例示フロー

Qwen 8Bをプランナー、4BをエグゼキュータとしてAce Hardware(モデルが事前にタスクを持たないサイト)でテストされたフローは、ビジョンモデルを一切使用せずに完全なカートフローを完了しました。段階的アプローチは以下のようでした:

  • ステップ1: 検索ボックスを確認 → 「grass mower」と入力
  • ステップ2: 結果を確認 → カートに追加をクリック
  • ステップ3: ドロワーが表示 → 閉じる
  • ステップ4: カートが表示 → カートを表示をクリック
  • ステップ5: 完了

コンパクトなDOM表現が小規模モデルを可能に

モデルは生のHTMLやスクリーンショットを見ることはなく、セマンティックなテーブル表現のみを見ます:

id|role|text|importance|bg|clickable|nearby_text
665|button|Proceed to checkout|675|orange|1|
761|button|Add to cart|720|yellow|1|$299.99
1488|link|ThinkPad E16|478|none|1|Laptop 16"

これにより、4Bエグゼキュータは短いリストから要素IDを選択できます。ビジョンアプローチではスクリーンショットごとに2-3Kトークンを消費し、完全なフローでは容易に50-100K以上になりますが、コンパクトなスナップショットでは同じタスクで合計約15Kしか使用しません。

成功にはモーダル処理が重要

各クリック後、DOMが突然増加した場合、エージェントは再計画する前に閉じるパターン(閉じる、×、いいえ、など)をスキャンします。これにより、「推論の失敗」に見えた多くの問題が、実際には隠れたオーバーレイが原因だったことが修正されました。

開発者は、サイトが不慣れになると段階的計画が事前計画を上回ることを他の人々も観察しているかどうかに興味を持っていると述べています。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Chrome拡張機能がClaude Code Webにライブプレビュー機能を追加
Tools

Chrome拡張機能がClaude Code Webにライブプレビュー機能を追加

Claude Code PreviewというChrome拡張機能が、Claude Code Webにライブプレビュー機能を追加し、Lovableや他の「バイブコーディング」サイトと同様に、デプロイメントを並べて表示できるようにします。

OpenClawRadar
API間の相互作用の探求:自動化の詳細な考察
Tools

API間の相互作用の探求:自動化の詳細な考察

Redditでの最近の議論では、PostmanやTwilioなどのツールを使用した実用的な実装と潜在的な課題に焦点を当て、API間通話の複雑さについて掘り下げています。

OpenClawRadar
ClawCut:OpenClawで使える小さなローカルLLMのためのPythonプロキシ
Tools

ClawCut:OpenClawで使える小さなローカルLLMのためのPythonプロキシ

ClawCutは、コンテキスト汚染、無限ループ、失敗したcronジョブの出力など、7B/14BのローカルモデルをOpenClawに接続する際の一般的な問題を解決するPython Flaskプロキシです。ツール呼び出し中の動的記憶喪失と、スケジュールされたタスクの自動配信を実装しています。

OpenClawRadar
Claude Codeプラグインは、あらゆるプラグインを分析し、インタラクティブなWikiレポートを生成します。
Tools

Claude Codeプラグインは、あらゆるプラグインを分析し、インタラクティブなWikiレポートを生成します。

vision-powersという新しいClaude Codeプラグインは、任意のプラグインパスまたはGitHub URLを分析し、アーキテクチャ図、セキュリティ監査、スキル分析を含むインタラクティブなHTML wikiレポートを生成します。インストールはclaude plugin add vision-powers@claude-code-zeroで行います。

OpenClawRadar