二つの研究プロジェクトがウェブエージェントの模倣学習に挑戦

✍️ OpenClawRadar📅 公開日: April 13, 2026🔗 Source
二つの研究プロジェクトがウェブエージェントの模倣学習に挑戦
Ad

ウェブエージェントトレーニングの2つのアプローチ

2つの研究プロジェクトが、専門家のデモンストレーションの模倣のみを通じてAIエージェントをトレーニングする標準的なアプローチに挑戦しています。特に、モデルが実際のウェブサイトをナビゲートし、フィールドに入力し、ボタンをクリックし、フォームを送信する必要があるウェブフォーム入力タスクに焦点を当てています。

Browser in the Loop: タスク完了のための強化学習

最初のプロジェクト「Browser in the Loop」(doi.org/10.13140/RG.2.2.24922.71360)は、実際のブラウザとのフィードバックループで80億パラメーターモデルを使用します。専門家のデモンストレーションを模倣するだけではなく、モデルはアクションプランを生成し、ライブウェブフォームに対して実行し、結果から学習します。

強化学習により、ほぼ完璧な試み(すべてのフィールドが正しいが送信に失敗する場合)が実際の成功に変換されます。この向上は、フィールドの入力が改善されたからではなく、ゴールラインを越えることを学習したことによるものです。これは模倣だけでは最適化されなかったことです。

Concentrate or Collapse: 拡散モデルにおける強化学習の課題

2番目のプロジェクト「Concentrate or Collapse」(doi.org/10.13140/RG.2.2.11500.94088)は、モデルが左から右へとアクションを生成しない場合に何が起こるかを探ります。拡散言語モデルはアクションシーケンス全体を並列に洗練しますが、自己回帰モデルで機能する同じ強化学習を適用すると、これらの拡散モデルは崩壊し、出力が無意味なものに劣化します。

16の制御比較において、トークンレベルの強化学習が改善したのはわずか2回でした。修正には、シーケンスレベルでの最適化の再考が必要であり、ある方法(ESPO)が純粋な拡散アーキテクチャでついに突破口を開きました。

主な示唆

この研究は、ほとんどのウェブエージェントベンチマークが、実際のタスク完了ではなく、参照軌跡とのテキスト類似性で評価されていることを強調しています。これらのプロジェクトは、紙の上で正しく見えるものと、ブラウザで実際に機能するものは異なる問題であり、間違ったものを最適化すると性能を十分に引き出せないことを示唆しています。

トレーニングされた12のモデルすべてとそのパイプラインはオープンソース化されています:コードはgithub.com/billy-enrizky/openbrowser-ai、モデルはhuggingface.co/billyenrizkyで公開されています。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

アンソロピック、新クレジットシステムでOpenClawを制限:詳細と影響
News

アンソロピック、新クレジットシステムでOpenClawを制限:詳細と影響

Anthropicが再びOpenClawを制限します。2026年6月15日より、プログラムによるすべての利用は、月間上限付きで繰り越し不可の別のクレジットプールに移行し、APIレート超過課金が適用されます。

OpenClawRadar
马里兰州居民为外州AI数据中心承担20亿美元电网升级费用——州政府向FERC提交投诉
News

马里兰州居民为外州AI数据中心承担20亿美元电网升级费用——州政府向FERC提交投诉

メリーランド州人民弁護士事務所は、PJM Interconnectionに対してFERCに苦情を申し立てた。PJMは220億ドルの送電網アップグレードのうち20億ドルをメリーランド州の顧客に割り当てており、住宅用顧客1人あたり約345ドルの負担となり、主に州外のAIデータセンターに利益をもたらすとしている。

OpenClawRadar
MiMo-V2.5-Pro ベンチマーク評価:強力な社会的推理能力、K2.6に対する良好な価値
News

MiMo-V2.5-Pro ベンチマーク評価:強力な社会的推理能力、K2.6に対する良好な価値

MiMo-V2.5-Proは、自律型『ブラッド・オン・ザ・クロックタワー』ゲームにおいてKimi K2.6と競合し、善良陣営の勝率88%、邪悪陣営の勝率48%と偏った結果を示し、1ゲームあたり0.99ドル、出力トークン数183kで、2~3時間のマッチに実用的です。

OpenClawRadar
開発者とClaude AIの経験:思考パートナーから認知的外注へ
News

開発者とClaude AIの経験:思考パートナーから認知的外注へ

ある開発者がClaude AIを8ヶ月間毎日使用した経験を共有し、既存の思考を磨くための使用から、初期思考を完全に外部委託する使用へと移行したことを指摘しています。この投稿では、AIを思考パートナーとして使うアプローチと、AIを第一段階の生成ツールとして使うアプローチという、2つの異なる認知アプローチが説明されています。

OpenClawRadar