두 개의 연구 프로젝트, 웹 에이전트를 위한 모방 학습에 도전하다

웹 에이전트 훈련의 두 가지 접근법
두 개의 연구 프로젝트가 전문가 시연을 단순히 모방하는 방식으로 AI 에이전트를 훈련하는 표준 접근법에 도전합니다. 특히 웹 양식 작성 작업에 초점을 맞추는데, 여기서 모델은 실제 웹사이트를 탐색하고, 필드를 채우고, 버튼을 클릭하며, 양식을 제출해야 합니다.
Browser in the Loop: 작업 완성을 위한 강화 학습
첫 번째 프로젝트인 "Browser in the Loop" (doi.org/10.13140/RG.2.2.24922.71360)은 실제 브라우저와 피드백 루프를 형성하는 80억 개의 파라미터를 가진 모델을 사용합니다. 전문가 시연만 모방하는 대신, 이 모델은 행동 계획을 생성하고, 이를 실시간 웹 양식에 대해 실행하며, 결과로부터 학습합니다.
강화 학습은 거의 완벽한 시도(모든 필드가 정확하지만 제출은 실패하는 경우)를 실제 성공으로 전환합니다. 이득은 필드를 더 잘 채우는 데서 오는 것이 아니라, 결승선을 넘는 법을 배우는 데서 옵니다. 이는 모방만으로는 최적화할 수 없는 부분입니다.
Concentrate or Collapse: 확산 모델과의 강화 학습 과제
두 번째 프로젝트인 "Concentrate or Collapse" (doi.org/10.13140/RG.2.2.11500.94088)은 모델이 전혀 왼쪽에서 오른쪽으로 행동을 생성하지 않을 때 어떤 일이 발생하는지 탐구합니다. 확산 언어 모델은 전체 행동 시퀀스를 병렬로 정제하지만, 자기회귀 모델에 효과적인 동일한 강화 학습을 적용하면 이러한 확산 모델이 붕괴되어 출력이 비일관성으로 저하됩니다.
16개의 통제된 비교에서 토큰 수준 강화 학습은 단 두 번만 개선되었습니다. 해결책은 시퀀스 수준에서 최적화를 재고하는 것이 필요했으며, 한 방법(ESPO)이 마침내 순수 확산 아키텍처에 대한 돌파구를 마련했습니다.
주요 시사점
이 연구는 대부분의 웹 에이전트 벤치마크가 여전히 실제 작업 완성보다는 참조 궤적에 대한 텍스트 유사성을 평가한다는 점을 강조합니다. 이 프로젝트들은 종이상으로 올바르게 보이는 것과 브라우저에서 실제로 작동하는 것이 서로 다른 문제이며, 잘못된 목표를 최적화하면 성능이 제한된다고 시사합니다.
훈련된 12개의 모델 전체와 그 파이프라인이 오픈소스로 공개되었습니다: 코드는 github.com/billy-enrizky/openbrowser-ai에서, 모델은 huggingface.co/billyenrizky에서 확인할 수 있습니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

클로드 AI, 대규모 장애 발생: 웹 UI 먹통, API 오류 증가
Claude.ai를 사용할 수 없으며, 2025년 4월 28일 19:15 UTC 기준으로 API에서 높은 오류율이 발생하고 있습니다. 공식 상태 페이지에서 진행 중인 사고를 확인했습니다.

멜버른 정신과 의사, AI 기록에 동의하지 않는 신규 환자 거부
멜버른의 정신과 의사가 이제 신규 환자에게 진료 시 AI 전사를 동의하도록 요구하거나 다른 곳으로 보내겠다고 밝혀 데이터 보안과 정확성 우려가 제기되고 있다.

Granite 4.1: IBM의 8B 밀집 모델, 벤치마크에서 32B MoE와 동급 성능
IBM의 Granite 4.1 8B 밀집 모델은 향상된 학습 데이터 품질 덕분에 ArenaHard, BFCL V3, GSM8K 등에서 이전 32B MoE 모델과 동등하거나 더 나은 성능을 보입니다.

AI 데이터 센터 금융 구조의 소송 위험
AI 데이터센터 건설은 2030년까지 5.2조 달러의 인프라 투자가 필요하며, 기업들은 SPV와 GPU 담보 시설 같은 복잡한 금융 구조를 사용하여 9가지 유형의 소송 위험을 초래하고 있습니다.