TinyFish 81.9% vs OpenAI 43.2%: El Agente Web que Supera a Todos

El Agente Web TinyFish ha demostrado ser una herramienta líder para abordar tareas web complejas, alcanzando una tasa de éxito del 81.9% en tareas difíciles en el estándar Online-Mind2Web, que consiste en 300 tareas a través de 136 sitios web en vivo. Esta cifra contrasta notablemente con grandes competidores, como OpenAI Operator, que solo logró un 43.2% de tasa de éxito en tareas similares.

El estándar Online-Mind2Web es una medida rigurosa de las capacidades de un agente web, probándolos en tareas que varían desde fáciles, como navegar por ofertas de tarjetas de crédito en Marriott, hasta desafíos complejos como reservar entradas para eventos con precios dinámicos. Las tareas involucran múltiples pasos con sitios web en vivo, incluyendo la validación de formularios y ventanas emergentes, lo que lo convierte en una prueba realista en comparación con otros estándares menos fiables como WebVoyager.

TinyFish se distingue por manejar eficazmente los errores acumulativos. Solo pierde 15.6 puntos de tareas fáciles a difíciles en comparación con las caídas masivas mostradas por otros sistemas, destacando su solidez en escenarios del mundo real. Notablemente, ha publicado todos los 300 ejecutores de tareas, incluyendo sus 40 fallos, lo que ofrece transparencia sobre sus características de rendimiento y casos de fallo, como los bloqueos anti-bot a nivel de infraestructura que se encuentran en sitios como apartments.com.

Los desarrolladores que buscan una herramienta robusta de automatización web encontrarán de interés el repositorio de recetas de código abierto de TinyFish, que proporciona información sobre su arquitectura y metodología de ejecución.

📖 Leer el texto completo: HN AI Agents

El Agente Web TinyFish Supera a sus Competidores en la Evaluación de Tareas Web

👀 Ver también

Desarrollador crea plugin de WordPress MCP con capacidades de lectura/escritura y 28 funciones

Unsloth Studio permite duplicar la velocidad de entrenamiento con una reducción del 70% en VRAM para el ajuste local de IA.

cowork-session-sync v1.0.0 proporciona continuidad de sesión para Claude Cowork.

Exasol lanza un servidor MCP para contexto de base de datos en flujos de trabajo de agentes de IA.