Тестирование показывает, что инструменты автоматизации браузера на основе ИИ различаются в 2,6 раза по стоимости токенов при одинаковой точности.

Результаты бенчмарка: одинаковая точность, разные затраты
Бенчмарк протестировал 4 инструмента автоматизации браузера через CLI с использованием одной и той же модели (Claude Sonnet 4.6) на 6 реальных задачах на живых сайтах. Все инструменты показали 100% точность в 18 выполнениях задач, но использование токенов значительно различалось:
- openbrowser-ai: 36 010 токенов / 84,8 с / 15,3 вызова инструментов
- browser-use: 77 123 токена / 106,0 с / 20,7 вызова инструментов
- playwright-cli (Microsoft): 94 130 токенов / 118,3 с / 25,7 вызова инструментов
- agent-browser (Vercel): 90 107 токенов / 99,0 с / 25,0 вызова инструментов
Openbrowser-ai использовал в 2,1–2,6 раза меньше токенов, чем другие инструменты. Бенчмарк показал, что количество вызовов инструментов является самым сильным предиктором стоимости токенов, потому что каждый вызов заставляет LLM заново обрабатывать всю историю диалога.
Как инструменты различаются в реализации
Все четыре инструмента поддерживают постоянные сессии браузера через фоновые демоны, могут выполнять JavaScript на стороне сервера и возвращать только результат, работают над сжатием состояния страницы и поддерживают некоторую форму выполнения кода.
browser-use предоставляет отдельные команды CLI: open, click, input, scroll, state, eval. LLM отправляет одну команду за вызов инструмента. eval выполняет JavaScript в контексте страницы. Состояние страницы — это расширенное DOM-дерево с индексами [N] примерно по 880 символов на страницу. Он общается с Chrome напрямую через CDP с помощью их библиотеки cdp-use.
agent-browser следует аналогичной схеме: open, click, fill, snapshot, eval. Это нативный бинарный файл на Rust, который напрямую общается с Chrome через CDP. Состояние страницы — это дерево доступности с ссылками u/eN. Флаг -i создаёт компактный вывод только для интерактивных элементов объёмом около 590 символов. Команды можно объединять с помощью &&, но каждая из них всё равно является отдельным запросом к демону.
playwright-cli предлагает отдельные команды плюс run-code, который принимает произвольный JavaScript Playwright с полным доступом к API. LLM может написать код вроде run-code "async page => { await page.goto('url'); await page.click('.btn'); return await page.title(); }" и выполнить несколько операций за один вызов. Состояние страницы — это дерево доступности, сохраняемое в файлы .yml объёмом примерно 1 420 символов, с инкрементальными снимками, которые отправляют только различия после первого чтения.
openbrowser-ai вообще не имеет отдельных команд. Единственный интерфейс — это код на Python через -c:
openbrowser-ai -c 'await navigate("https://en.wikipedia.org/wiki/Python") info = await evaluate("document.querySelector('.infobox')?.innerText") print(info)'navigate, click, input_text, evaluate, scroll — это асинхронные функции Python в постоянном пространстве имён. Состояние страницы — это DOM с индексами [i_N] объёмом примерно 450 символов. Переменные сохраняются между вызовами, как в блокноте Jupyter.
Бенчмарк показал, что LLM совершал меньше вызовов инструментов с OpenBrowser (15,3 против 20–26 у других инструментов), что авторы объясняют тем, что интерфейс только с кодом естественным образом поощряет группировку операций.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Рекурсивная структура самосовершенствования для ИИ-агентов программирования с использованием Claude Code
Открытый фреймворк позволяет AI-агентам для программирования рекурсивно улучшать себя с помощью Claude Code. Система анализирует трассировки агентов, выявляет паттерны ошибок и внедряет исправления, достигая 25% прироста производительности за один тестовый цикл.

Learning-Kit: Плагин Claude Code для адаптации и изучения кодовой базы
Learning-kit — это бесплатный плагин Claude Code, который анализирует репозитории для создания структурированных учебных планов и интерактивных руководств. Он помогает разработчикам понять незнакомые кодовые базы перед внесением изменений, предлагая настраиваемые режимы контроля и отслеживание прогресса.

AGI в md: 11 уровней когнитивного сжатия для системных промптов Claude
Репозиторий на GitHub документирует 11 уровней когнитивного сжатия, которые можно закодировать в системных промптах Claude, при этом Уровень 8 переходит от анализа к конструированию и улучшает производительность Haiku с 0/3 до 4/4. Проект включает 28 промптов, 299 сырых выводов и полные журналы экспериментов по 19 доменам.

Агентная память V4 достигает 96,2% на бенчмарке LongMemEval, превосходя коммерческие системы памяти искусственного интеллекта.
agentmemory V4 набрал 96,2% на LongMemEval, превзойдя несколько финансируемых компаний в области памяти ИИ, включая PwC Chronos (95,6%), Mastra (94,87%) и OMEGA (93,2%). Система была создана в одиночку за 16 дней на среднебюджетном игровом ПК с бюджетом в $1000.