Two Projects Challenge Imitation Learning for Web Agents

웹 에이전트 훈련의 두 가지 접근법

두 개의 연구 프로젝트가 전문가 시연을 단순히 모방하는 방식으로 AI 에이전트를 훈련하는 표준 접근법에 도전합니다. 특히 웹 양식 작성 작업에 초점을 맞추는데, 여기서 모델은 실제 웹사이트를 탐색하고, 필드를 채우고, 버튼을 클릭하며, 양식을 제출해야 합니다.

Browser in the Loop: 작업 완성을 위한 강화 학습

첫 번째 프로젝트인 "Browser in the Loop" (doi.org/10.13140/RG.2.2.24922.71360)은 실제 브라우저와 피드백 루프를 형성하는 80억 개의 파라미터를 가진 모델을 사용합니다. 전문가 시연만 모방하는 대신, 이 모델은 행동 계획을 생성하고, 이를 실시간 웹 양식에 대해 실행하며, 결과로부터 학습합니다.

강화 학습은 거의 완벽한 시도(모든 필드가 정확하지만 제출은 실패하는 경우)를 실제 성공으로 전환합니다. 이득은 필드를 더 잘 채우는 데서 오는 것이 아니라, 결승선을 넘는 법을 배우는 데서 옵니다. 이는 모방만으로는 최적화할 수 없는 부분입니다.

Concentrate or Collapse: 확산 모델과의 강화 학습 과제

두 번째 프로젝트인 "Concentrate or Collapse" (doi.org/10.13140/RG.2.2.11500.94088)은 모델이 전혀 왼쪽에서 오른쪽으로 행동을 생성하지 않을 때 어떤 일이 발생하는지 탐구합니다. 확산 언어 모델은 전체 행동 시퀀스를 병렬로 정제하지만, 자기회귀 모델에 효과적인 동일한 강화 학습을 적용하면 이러한 확산 모델이 붕괴되어 출력이 비일관성으로 저하됩니다.

16개의 통제된 비교에서 토큰 수준 강화 학습은 단 두 번만 개선되었습니다. 해결책은 시퀀스 수준에서 최적화를 재고하는 것이 필요했으며, 한 방법(ESPO)이 마침내 순수 확산 아키텍처에 대한 돌파구를 마련했습니다.

주요 시사점

이 연구는 대부분의 웹 에이전트 벤치마크가 여전히 실제 작업 완성보다는 참조 궤적에 대한 텍스트 유사성을 평가한다는 점을 강조합니다. 이 프로젝트들은 종이상으로 올바르게 보이는 것과 브라우저에서 실제로 작동하는 것이 서로 다른 문제이며, 잘못된 목표를 최적화하면 성능이 제한된다고 시사합니다.

훈련된 12개의 모델 전체와 그 파이프라인이 오픈소스로 공개되었습니다: 코드는 github.com/billy-enrizky/openbrowser-ai에서, 모델은 huggingface.co/billyenrizky에서 확인할 수 있습니다.

📖 Read the full source: r/LocalLLaMA