TinyFish Agente Web 81,9% Supera OpenAI Operator em Benchmark

O TinyFish Web Agent provou ser uma ferramenta líder no enfrentamento de tarefas web complexas, alcançando uma taxa de sucesso de 81,9% em tarefas difíceis no benchmark Online-Mind2Web, que consiste em 300 tarefas em 136 sites ativos. Este número contrasta fortemente com os principais concorrentes, como o OpenAI Operator, que conseguiu apenas uma taxa de sucesso de 43,2% em tarefas semelhantes.

O benchmark Online-Mind2Web é uma medida rigorosa das capacidades de um agente web, testando-o em tarefas que variam de fáceis, como navegar por ofertas de cartão de crédito no Marriott, a desafios complexos, como reservar ingressos para eventos com preços dinâmicos. As tarefas envolvem múltiplas etapas com sites ativos, incluindo o tratamento de validação de formulários e pop-ups, tornando-o um teste realista em comparação com outros benchmarks menos confiáveis, como o WebVoyager.

A TinyFish se destaca por lidar efetivamente com erros cumulativos. Ela perde apenas 15,6 pontos de tarefas fáceis para difíceis, em comparação com quedas massivas mostradas por outros sistemas, destacando sua robustez em cenários do mundo real. Notavelmente, ela publicou todas as 300 execuções de tarefas, incluindo seus 40 fracassos, o que oferece transparência sobre suas características de desempenho e casos de falha, como bloqueios anti-bot em nível de infraestrutura encontrados em sites como apartments.com.

Desenvolvedores que buscam uma ferramenta robusta de automação web acharão interessante o repositório de receitas de código aberto da TinyFish, que fornece insights sobre sua arquitetura e metodologia de execução.

📖 Leia a fonte completa: HN AI Agents

Agente Web TinyFish Supera Concorrentes em Benchmarking de Tarefas na Web

👀 See Also

Sistema Multi-Agente para Análise Competitiva Aprofundada com Claude

Ferramenta Criador de Habilidades para OpenClaw Auxilia Desenvolvedores a Empacotar Fluxos de Trabalho

Mengram adiciona memória persistente aos agentes OpenClaw

AIBrain adiciona memória persistente e autoaperfeiçoamento ao Claude Code