TinyFish 웹 에이전트 81.9% 성공률, OpenAI Operator 43.2% 대비 2배 우수

TinyFish 웹 에이전트는 복잡한 웹 작업을 처리하는 데 있어 선도적인 도구임이 입증되었으며, 136개의 실시간 웹사이트에서 300개의 작업으로 구성된 Online-Mind2Web 벤치마크에서 어려운 작업에 대해 81.9%의 성공률을 달성했습니다. 이 수치는 OpenAI Operator와 같은 주요 경쟁사들이 유사한 작업에서 겨우 43.2%의 성공률을 기록한 것과 극명한 대조를 이룹니다.

Online-Mind2Web 벤치마크는 웹 에이전트의 능력을 엄격하게 측정하는 지표로, Marriott에서 신용카드 혜택을 탐색하는 것과 같은 쉬운 작업부터 동적 가격 책정으로 이벤트 티켓을 예약하는 것과 같은 복잡한 과제까지 다양한 작업을 테스트합니다. 작업에는 양식 유효성 검사 및 팝업 처리와 같은 실시간 웹사이트에서의 여러 단계가 포함되어 있어, WebVoyager와 같은 덜 신뢰할 수 있는 다른 벤치마크에 비해 현실적인 테스트로 평가됩니다.

TinyFish는 복합적인 오류를 효과적으로 처리함으로써 차별화됩니다. 쉬운 작업에서 어려운 작업으로 넘어갈 때 단지 15.6점만 하락하는 반면, 다른 시스템들은 급격한 하락을 보여 현실 세계 시나리오에서의 견고함을 강조합니다. 특히, 아파트먼트닷컴과 같은 사이트에서 발생한 인프라 수준의 봇 차단과 같은 성능 특성 및 실패 사례를 투명하게 제공하기 위해 40개의 실패를 포함한 모든 300개 작업 실행을 공개했습니다.

견고한 웹 자동화 도구를 찾는 개발자들은 TinyFish의 오픈소스 쿡북 저장소에 관심을 가질 수 있으며, 이는 그 아키텍처와 실행 방법론에 대한 통찰력을 제공합니다.

📖 전체 출처 읽기: HN AI Agents

TinyFish 웹 에이전트, 웹 작업 벤치마킹에서 경쟁사보다 우수한 성능 보여

👀 See Also

Werld: 진화하는 신경망을 통한 개방형 인공 생명 시뮬레이션

인간 게이트를 통한 병렬 AI 코딩 에이전트를 위한 오픈소스 기술

오픈 소스 MCP 서버가 클로드를 메일침프 API에 연결합니다

오픈소스 MCP 서버는 Claude Code와 IDE 도구를 연결합니다