Agente Web TinyFish Supera Concorrentes em Benchmarking de Tarefas na Web

✍️ OpenClawRadar📅 Publicado: February 13, 2026🔗 Source
Agente Web TinyFish Supera Concorrentes em Benchmarking de Tarefas na Web
Ad

O TinyFish Web Agent provou ser uma ferramenta líder no enfrentamento de tarefas web complexas, alcançando uma taxa de sucesso de 81,9% em tarefas difíceis no benchmark Online-Mind2Web, que consiste em 300 tarefas em 136 sites ativos. Este número contrasta fortemente com os principais concorrentes, como o OpenAI Operator, que conseguiu apenas uma taxa de sucesso de 43,2% em tarefas semelhantes.

O benchmark Online-Mind2Web é uma medida rigorosa das capacidades de um agente web, testando-o em tarefas que variam de fáceis, como navegar por ofertas de cartão de crédito no Marriott, a desafios complexos, como reservar ingressos para eventos com preços dinâmicos. As tarefas envolvem múltiplas etapas com sites ativos, incluindo o tratamento de validação de formulários e pop-ups, tornando-o um teste realista em comparação com outros benchmarks menos confiáveis, como o WebVoyager.

A TinyFish se destaca por lidar efetivamente com erros cumulativos. Ela perde apenas 15,6 pontos de tarefas fáceis para difíceis, em comparação com quedas massivas mostradas por outros sistemas, destacando sua robustez em cenários do mundo real. Notavelmente, ela publicou todas as 300 execuções de tarefas, incluindo seus 40 fracassos, o que oferece transparência sobre suas características de desempenho e casos de falha, como bloqueios anti-bot em nível de infraestrutura encontrados em sites como apartments.com.

Ad

Desenvolvedores que buscam uma ferramenta robusta de automação web acharão interessante o repositório de receitas de código aberto da TinyFish, que fornece insights sobre sua arquitetura e metodologia de execução.

📖 Leia a fonte completa: HN AI Agents

Ad

👀 See Also

Agente OpenClaw Adquire Capacidade de Chamadas Telefônicas por Meio de Habilidade Personalizada
Tools

Agente OpenClaw Adquire Capacidade de Chamadas Telefônicas por Meio de Habilidade Personalizada

Um desenvolvedor criou uma habilidade personalizada para agentes OpenClaw auto-hospedados que permite funcionalidade de chamadas telefônicas, permitindo que o agente inicie chamadas com base em gatilhos como conclusões de builds ou falhas de servidor. A implementação fornece interação por voz com todas as capacidades de chat, incluindo pesquisas na web e configuração de alertas.

OpenClawRadar
Executando NemoClaw com vLLM Local: Notas de Configuração e Observações de Engenharia de Agentes
Tools

Executando NemoClaw com vLLM Local: Notas de Configuração e Observações de Engenharia de Agentes

Um desenvolvedor documentou a execução da plataforma de agentes de IA em sandbox NemoClaw da NVIDIA com um modelo local Nemotron 9B v2 via vLLM no WSL2. As principais descobertas incluem detalhes de roteamento de inferência, problemas de compatibilidade do analisador e observações sobre a lacuna na engenharia de agentes.

OpenClawRadar
Gerador de Prompt Socrático Construído como Artefato React Dentro do Claude
Tools

Gerador de Prompt Socrático Construído como Artefato React Dentro do Claude

Um desenvolvedor criou um gerador de prompts socrático como um artefato React que roda dentro do Claude, com detecção automática da complexidade da entrada e geração de prompts em três níveis com análise de modos de falha.

OpenClawRadar
O patch da comunidade adiciona suporte para idiomas RTL ao Claude Desktop no Windows.
Tools

O patch da comunidade adiciona suporte para idiomas RTL ao Claude Desktop no Windows.

Um desenvolvedor criou um patch que adiciona suporte adequado para idiomas da direita para a esquerda ao Claude Desktop no Windows, corrigindo a renderização quebrada para hebraico, árabe e outros idiomas RTL. O patch injeta lógica de detecção RTL no renderizador do aplicativo Electron e inclui funcionalidade de backup/restauração.

OpenClawRadar