TinyFish Web Agent: 81.9% в бенчмарке, обходит OpenAI Operator

Веб-агент TinyFish зарекомендовал себя как ведущий инструмент для решения сложных веб-задач, достигнув 81,9% успеха в сложных задачах на контрольном тесте Online-Mind2Web, который состоит из 300 заданий на 136 реальных веб-сайтах. Эта цифра резко контрастирует с основными конкурентами, такими как OpenAI Operator, который смог достичь лишь 43,2% успеха в аналогичных задачах.

Контрольный тест Online-Mind2Web является строгой мерой возможностей веб-агента, тестируя их на задачах, варьирующихся от простых, таких как поиск предложений по кредитным картам на Marriott, до сложных вызовов, таких как бронирование билетов на мероприятия с динамическим ценообразованием. Задачи включают в себя множество этапов на реальных веб-сайтах, включая обработку валидации форм и всплывающих окон, что делает его реалистичным тестом по сравнению с другими менее надежными контрольными тестами, такими как WebVoyager.

TinyFish выделяется своей способностью эффективно справляться с накопительными ошибками. Он теряет всего 15,6 пункта при переходе от простых к сложным задачам, в отличие от крупных падений, демонстрируемых другими системами, что подчеркивает его надежность в реальных сценариях. Примечательно, что он опубликовал все 300 запусков задач, включая 40 неудач, что предоставляет прозрачность в отношении его характеристик производительности и случаев неудач, например, блокировок на уровне инфраструктуры, с которыми сталкиваются такие сайты, как apartments.com.

Разработчики, ищущие надежный инструмент веб-автоматизации, найдут интересным открытый репозиторий кулинарной книги TinyFish, который дает представление о его архитектуре и методологии выполнения.

📖 Читать полный источник: HN AI Agents

ТайниФиш Веб Агент превосходит конкурентов в бенчмаркинге веб-задач.

👀 Смотрите также

Открытая система фиксирует шаблоны кода Claude в развивающейся документации

UIUC AI-ассистент преподавателя запускает 11 моделей параллельно для ответов менее чем за 2 секунды

ClaudeDesk v4.2–4.3 внедряет визуализацию команд агентов и движок репозитория Atlas.

OpenEvol: Потоковая система автономного самосовершенствования для больших языковых моделей с использованием истории диалога