ТайниФиш Веб Агент превосходит конкурентов в бенчмаркинге веб-задач.

✍️ OpenClawRadar📅 Опубликовано: 13 февраля 2026 г.🔗 Source
ТайниФиш Веб Агент превосходит конкурентов в бенчмаркинге веб-задач.
Ad

Веб-агент TinyFish зарекомендовал себя как ведущий инструмент для решения сложных веб-задач, достигнув 81,9% успеха в сложных задачах на контрольном тесте Online-Mind2Web, который состоит из 300 заданий на 136 реальных веб-сайтах. Эта цифра резко контрастирует с основными конкурентами, такими как OpenAI Operator, который смог достичь лишь 43,2% успеха в аналогичных задачах.

Контрольный тест Online-Mind2Web является строгой мерой возможностей веб-агента, тестируя их на задачах, варьирующихся от простых, таких как поиск предложений по кредитным картам на Marriott, до сложных вызовов, таких как бронирование билетов на мероприятия с динамическим ценообразованием. Задачи включают в себя множество этапов на реальных веб-сайтах, включая обработку валидации форм и всплывающих окон, что делает его реалистичным тестом по сравнению с другими менее надежными контрольными тестами, такими как WebVoyager.

TinyFish выделяется своей способностью эффективно справляться с накопительными ошибками. Он теряет всего 15,6 пункта при переходе от простых к сложным задачам, в отличие от крупных падений, демонстрируемых другими системами, что подчеркивает его надежность в реальных сценариях. Примечательно, что он опубликовал все 300 запусков задач, включая 40 неудач, что предоставляет прозрачность в отношении его характеристик производительности и случаев неудач, например, блокировок на уровне инфраструктуры, с которыми сталкиваются такие сайты, как apartments.com.

Ad

Разработчики, ищущие надежный инструмент веб-автоматизации, найдут интересным открытый репозиторий кулинарной книги TinyFish, который дает представление о его архитектуре и методологии выполнения.

📖 Читать полный источник: HN AI Agents

Ad

👀 Смотрите также

Осваивание режимов подписки Antropic: Хайку, Сонет и Опус
Инструменты

Осваивание режимов подписки Antropic: Хайку, Сонет и Опус

Изучите инновационные режимы подписки Antropic — Haiku, Sonnet и Opus — разработанные для улучшения вашего опыта программирования с ИИ с учетом индивидуальных особенностей и цен.

OpenClawRadar
Сервер MCP Audacity предоставляет ИИ Claude полный контроль над редактированием аудио.
Инструменты

Сервер MCP Audacity предоставляет ИИ Claude полный контроль над редактированием аудио.

Разработчик создал MCP-сервер, который подключает Claude AI к Audacity через mod-script-pipe, предоставляя 99 инструментов для команд редактирования аудио на естественном языке. Этот инструмент с открытым исходным кодом работает с Claude Desktop, Claude Code или Cursor.

OpenClawRadar
Сервер MCP отслеживает известные ошибки в инструментах разработки для улучшения рекомендаций LLM
Инструменты

Сервер MCP отслеживает известные ошибки в инструментах разработки для улучшения рекомендаций LLM

nanmesh-mcp — это MCP-сервер, который сканирует GitHub Issues, Stack Overflow и Reddit для отслеживания реальных проблем в 57 инструментах разработки, предоставляя LLM актуальные данные об ошибках перед рекомендацией библиотек.

OpenClawRadar
Разработчик создает MCP-сервер, объединяющий 18 инструментов электронной коммерции с Claude.
Инструменты

Разработчик создает MCP-сервер, объединяющий 18 инструментов электронной коммерции с Claude.

Разработчик создал MCP-сервер, который интегрирует 18 платформ и инструментов электронной коммерции с Claude, позволяя выполнять перекрестные запросы по нескольким источникам данных. Проект был в основном построен с использованием Claude Code (Opus) за дни, а не месяцы.

OpenClawRadar