TinyFish 웹 에이전트, 웹 작업 벤치마킹에서 경쟁사보다 우수한 성능 보여

✍️ OpenClawRadar📅 게시일: February 13, 2026🔗 Source
TinyFish 웹 에이전트, 웹 작업 벤치마킹에서 경쟁사보다 우수한 성능 보여
Ad

TinyFish 웹 에이전트는 복잡한 웹 작업을 처리하는 데 있어 선도적인 도구임이 입증되었으며, 136개의 실시간 웹사이트에서 300개의 작업으로 구성된 Online-Mind2Web 벤치마크에서 어려운 작업에 대해 81.9%의 성공률을 달성했습니다. 이 수치는 OpenAI Operator와 같은 주요 경쟁사들이 유사한 작업에서 겨우 43.2%의 성공률을 기록한 것과 극명한 대조를 이룹니다.

Online-Mind2Web 벤치마크는 웹 에이전트의 능력을 엄격하게 측정하는 지표로, Marriott에서 신용카드 혜택을 탐색하는 것과 같은 쉬운 작업부터 동적 가격 책정으로 이벤트 티켓을 예약하는 것과 같은 복잡한 과제까지 다양한 작업을 테스트합니다. 작업에는 양식 유효성 검사 및 팝업 처리와 같은 실시간 웹사이트에서의 여러 단계가 포함되어 있어, WebVoyager와 같은 덜 신뢰할 수 있는 다른 벤치마크에 비해 현실적인 테스트로 평가됩니다.

TinyFish는 복합적인 오류를 효과적으로 처리함으로써 차별화됩니다. 쉬운 작업에서 어려운 작업으로 넘어갈 때 단지 15.6점만 하락하는 반면, 다른 시스템들은 급격한 하락을 보여 현실 세계 시나리오에서의 견고함을 강조합니다. 특히, 아파트먼트닷컴과 같은 사이트에서 발생한 인프라 수준의 봇 차단과 같은 성능 특성 및 실패 사례를 투명하게 제공하기 위해 40개의 실패를 포함한 모든 300개 작업 실행을 공개했습니다.

견고한 웹 자동화 도구를 찾는 개발자들은 TinyFish의 오픈소스 쿡북 저장소에 관심을 가질 수 있으며, 이는 그 아키텍처와 실행 방법론에 대한 통찰력을 제공합니다.

📖 전체 출처 읽기: HN AI Agents

Ad

👀 See Also

Claude Code 에이전트로 GitHub PR 리뷰 자동화하기
Tools

Claude Code 에이전트로 GitHub PR 리뷰 자동화하기

한 개발자가 GitHub 멘션을 처리하고, Claude Code 워커를 생성하여 PR을 리뷰하거나 수정하며, 모호한 경우에만 사람에게 에스컬레이션하는 에이전트를 구축했습니다.

OpenClawRadar
로컬 35B MoE 모델, 에이전트 OS 코드 실패율 0% 달성
Tools

로컬 35B MoE 모델, 에이전트 OS 코드 실패율 0% 달성

한 개발자가 멀티 에이전트 시스템의 런타임을 Qwen 3.6 35B A3B (MoE, 3B 활성 파라미터)로 전환한 후 코드 오류가 사라졌으며, 5계층 검증 게이트를 통해 100% 성공률을 달성했다고 보고했습니다.

OpenClawRadar
Focusmo macOS 앱이 Claude AI 통합을 위한 로컬 MCP 서버를 추가했습니다
Tools

Focusmo macOS 앱이 Claude AI 통합을 위한 로컬 MCP 서버를 추가했습니다

Focusmo, macOS용 집중 앱이 이제 로컬 MCP 서버를 포함하여 Claude AI가 주간 리뷰 및 계획을 위한 실제 집중 데이터에 접근할 수 있도록 합니다. 이 서버는 Mac에서 로컬로 실행되며 외부 서버가 필요하지 않아 모든 데이터를 기기 내에 보관합니다.

OpenClawRadar
MCP + 스킬 프레임워크: 효율적인 데이터 과학 워크플로우를 위한 AI 에이전트 안내
Tools

MCP + 스킬 프레임워크: 효율적인 데이터 과학 워크플로우를 위한 AI 에이전트 안내

MCP 서버 + 스킬 프레임워크를 사용하여 Claude/GPT 에이전트가 플랫폼을 인식하고 효율적인 데이터 과학 워크플로를 수행하도록 제한하는 실용적인 접근 방식입니다. 클라이언트 중심 코드와 불필요한 데이터 이동을 피합니다.

OpenClawRadar