TinyFish 웹 에이전트, 웹 작업 벤치마킹에서 경쟁사보다 우수한 성능 보여

TinyFish 웹 에이전트는 복잡한 웹 작업을 처리하는 데 있어 선도적인 도구임이 입증되었으며, 136개의 실시간 웹사이트에서 300개의 작업으로 구성된 Online-Mind2Web 벤치마크에서 어려운 작업에 대해 81.9%의 성공률을 달성했습니다. 이 수치는 OpenAI Operator와 같은 주요 경쟁사들이 유사한 작업에서 겨우 43.2%의 성공률을 기록한 것과 극명한 대조를 이룹니다.
Online-Mind2Web 벤치마크는 웹 에이전트의 능력을 엄격하게 측정하는 지표로, Marriott에서 신용카드 혜택을 탐색하는 것과 같은 쉬운 작업부터 동적 가격 책정으로 이벤트 티켓을 예약하는 것과 같은 복잡한 과제까지 다양한 작업을 테스트합니다. 작업에는 양식 유효성 검사 및 팝업 처리와 같은 실시간 웹사이트에서의 여러 단계가 포함되어 있어, WebVoyager와 같은 덜 신뢰할 수 있는 다른 벤치마크에 비해 현실적인 테스트로 평가됩니다.
TinyFish는 복합적인 오류를 효과적으로 처리함으로써 차별화됩니다. 쉬운 작업에서 어려운 작업으로 넘어갈 때 단지 15.6점만 하락하는 반면, 다른 시스템들은 급격한 하락을 보여 현실 세계 시나리오에서의 견고함을 강조합니다. 특히, 아파트먼트닷컴과 같은 사이트에서 발생한 인프라 수준의 봇 차단과 같은 성능 특성 및 실패 사례를 투명하게 제공하기 위해 40개의 실패를 포함한 모든 300개 작업 실행을 공개했습니다.
견고한 웹 자동화 도구를 찾는 개발자들은 TinyFish의 오픈소스 쿡북 저장소에 관심을 가질 수 있으며, 이는 그 아키텍처와 실행 방법론에 대한 통찰력을 제공합니다.
📖 전체 출처 읽기: HN AI Agents
👀 See Also

Claude Code 에이전트로 GitHub PR 리뷰 자동화하기
한 개발자가 GitHub 멘션을 처리하고, Claude Code 워커를 생성하여 PR을 리뷰하거나 수정하며, 모호한 경우에만 사람에게 에스컬레이션하는 에이전트를 구축했습니다.

로컬 35B MoE 모델, 에이전트 OS 코드 실패율 0% 달성
한 개발자가 멀티 에이전트 시스템의 런타임을 Qwen 3.6 35B A3B (MoE, 3B 활성 파라미터)로 전환한 후 코드 오류가 사라졌으며, 5계층 검증 게이트를 통해 100% 성공률을 달성했다고 보고했습니다.

Focusmo macOS 앱이 Claude AI 통합을 위한 로컬 MCP 서버를 추가했습니다
Focusmo, macOS용 집중 앱이 이제 로컬 MCP 서버를 포함하여 Claude AI가 주간 리뷰 및 계획을 위한 실제 집중 데이터에 접근할 수 있도록 합니다. 이 서버는 Mac에서 로컬로 실행되며 외부 서버가 필요하지 않아 모든 데이터를 기기 내에 보관합니다.

MCP + 스킬 프레임워크: 효율적인 데이터 과학 워크플로우를 위한 AI 에이전트 안내
MCP 서버 + 스킬 프레임워크를 사용하여 Claude/GPT 에이전트가 플랫폼을 인식하고 효율적인 데이터 과학 워크플로를 수행하도록 제한하는 실용적인 접근 방식입니다. 클라이언트 중심 코드와 불필요한 데이터 이동을 피합니다.