ТайниФиш Веб Агент превосходит конкурентов в бенчмаркинге веб-задач.

Веб-агент TinyFish зарекомендовал себя как ведущий инструмент для решения сложных веб-задач, достигнув 81,9% успеха в сложных задачах на контрольном тесте Online-Mind2Web, который состоит из 300 заданий на 136 реальных веб-сайтах. Эта цифра резко контрастирует с основными конкурентами, такими как OpenAI Operator, который смог достичь лишь 43,2% успеха в аналогичных задачах.
Контрольный тест Online-Mind2Web является строгой мерой возможностей веб-агента, тестируя их на задачах, варьирующихся от простых, таких как поиск предложений по кредитным картам на Marriott, до сложных вызовов, таких как бронирование билетов на мероприятия с динамическим ценообразованием. Задачи включают в себя множество этапов на реальных веб-сайтах, включая обработку валидации форм и всплывающих окон, что делает его реалистичным тестом по сравнению с другими менее надежными контрольными тестами, такими как WebVoyager.
TinyFish выделяется своей способностью эффективно справляться с накопительными ошибками. Он теряет всего 15,6 пункта при переходе от простых к сложным задачам, в отличие от крупных падений, демонстрируемых другими системами, что подчеркивает его надежность в реальных сценариях. Примечательно, что он опубликовал все 300 запусков задач, включая 40 неудач, что предоставляет прозрачность в отношении его характеристик производительности и случаев неудач, например, блокировок на уровне инфраструктуры, с которыми сталкиваются такие сайты, как apartments.com.
Разработчики, ищущие надежный инструмент веб-автоматизации, найдут интересным открытый репозиторий кулинарной книги TinyFish, который дает представление о его архитектуре и методологии выполнения.
📖 Читать полный источник: HN AI Agents
👀 Смотрите также

Осваивание режимов подписки Antropic: Хайку, Сонет и Опус
Изучите инновационные режимы подписки Antropic — Haiku, Sonnet и Opus — разработанные для улучшения вашего опыта программирования с ИИ с учетом индивидуальных особенностей и цен.

Сервер MCP Audacity предоставляет ИИ Claude полный контроль над редактированием аудио.
Разработчик создал MCP-сервер, который подключает Claude AI к Audacity через mod-script-pipe, предоставляя 99 инструментов для команд редактирования аудио на естественном языке. Этот инструмент с открытым исходным кодом работает с Claude Desktop, Claude Code или Cursor.

Сервер MCP отслеживает известные ошибки в инструментах разработки для улучшения рекомендаций LLM
nanmesh-mcp — это MCP-сервер, который сканирует GitHub Issues, Stack Overflow и Reddit для отслеживания реальных проблем в 57 инструментах разработки, предоставляя LLM актуальные данные об ошибках перед рекомендацией библиотек.

Разработчик создает MCP-сервер, объединяющий 18 инструментов электронной коммерции с Claude.
Разработчик создал MCP-сервер, который интегрирует 18 платформ и инструментов электронной коммерции с Claude, позволяя выполнять перекрестные запросы по нескольким источникам данных. Проект был в основном построен с использованием Claude Code (Opus) за дни, а не месяцы.