ウェブエージェント模倣学習の限界と強化学習の解決策

ウェブエージェントトレーニングの2つのアプローチ

2つの研究プロジェクトが、専門家のデモンストレーションの模倣のみを通じてAIエージェントをトレーニングする標準的なアプローチに挑戦しています。特に、モデルが実際のウェブサイトをナビゲートし、フィールドに入力し、ボタンをクリックし、フォームを送信する必要があるウェブフォーム入力タスクに焦点を当てています。

Browser in the Loop: タスク完了のための強化学習

最初のプロジェクト「Browser in the Loop」（doi.org/10.13140/RG.2.2.24922.71360）は、実際のブラウザとのフィードバックループで80億パラメーターモデルを使用します。専門家のデモンストレーションを模倣するだけではなく、モデルはアクションプランを生成し、ライブウェブフォームに対して実行し、結果から学習します。

強化学習により、ほぼ完璧な試み（すべてのフィールドが正しいが送信に失敗する場合）が実際の成功に変換されます。この向上は、フィールドの入力が改善されたからではなく、ゴールラインを越えることを学習したことによるものです。これは模倣だけでは最適化されなかったことです。

Concentrate or Collapse: 拡散モデルにおける強化学習の課題

2番目のプロジェクト「Concentrate or Collapse」（doi.org/10.13140/RG.2.2.11500.94088）は、モデルが左から右へとアクションを生成しない場合に何が起こるかを探ります。拡散言語モデルはアクションシーケンス全体を並列に洗練しますが、自己回帰モデルで機能する同じ強化学習を適用すると、これらの拡散モデルは崩壊し、出力が無意味なものに劣化します。

16の制御比較において、トークンレベルの強化学習が改善したのはわずか2回でした。修正には、シーケンスレベルでの最適化の再考が必要であり、ある方法（ESPO）が純粋な拡散アーキテクチャでついに突破口を開きました。

主な示唆

この研究は、ほとんどのウェブエージェントベンチマークが、実際のタスク完了ではなく、参照軌跡とのテキスト類似性で評価されていることを強調しています。これらのプロジェクトは、紙の上で正しく見えるものと、ブラウザで実際に機能するものは異なる問題であり、間違ったものを最適化すると性能を十分に引き出せないことを示唆しています。

トレーニングされた12のモデルすべてとそのパイプラインはオープンソース化されています：コードはgithub.com/billy-enrizky/openbrowser-ai、モデルはhuggingface.co/billyenrizkyで公開されています。

📖 Read the full source: r/LocalLLaMA