Браузер CLI: Эффективный по токенам инструмент автоматизации браузера для AI-агентов в программировании

✍️ OpenClawRadar📅 Опубликовано: 15 апреля 2026 г.🔗 Source
Браузер CLI: Эффективный по токенам инструмент автоматизации браузера для AI-агентов в программировании
Ad

Что делает Browser CLI

Browser CLI — это инструмент автоматизации браузера, созданный для решения проблемы перерасхода токенов в AI-агентах для программирования. Создатель заметил, что проверка браузера потребляла около 30 000 токенов за сессию из-за накладных расходов протокола Playwright MCP, при этом каждый вызов browser_navigate + browser_snapshot стоил около 1500 токенов в рамках JSON-схемы.

Решение — это постоянный фоновый процесс Chromium без графического интерфейса, с которым вы взаимодействуете через команды Bash. Под капотом используется та же технология снимков ARIA от Playwright, но достигается стоимость около 50–100 токенов за вызов вместо ~1500.

Команды и использование

Доступные команды включают:

  • browser-cli goto https://example.com — Перейти по URL
  • browser-cli snapshot -i — Дерево ARIA с ссылками @e
  • browser-cli click @e3 — Кликнуть по ссылке
  • browser-cli fill @e5 "hello" — Заполнить поле ввода
  • browser-cli css @e3 font-size — Получить вычисленное значение CSS
  • browser-cli inspect @e3 — Полная модель блока + стили
  • browser-cli screenshot /tmp/page.png — Скриншот
  • browser-cli snapshot -D — Сравнение: что изменилось с последнего снимка
  • browser-cli responsive /tmp — Скриншоты для мобильных, планшетов и десктопов

Сервер автоматически запускается при первом вызове (~3 с), последующие вызовы занимают ~100–200 мс. Он остаётся активным 30 минут, сохраняя куки, вкладки и состояние между командами.

Экономия токенов

Сравнение токенов:

  • Playwright MCP: ~1500 токенов за вызов, ~30 000 токенов за 20 вызовов
  • Browser CLI: ~75 токенов за вызов, ~1500 токенов за 20 вызовов

Это экономия 95% на проверке браузера. Для автоматизированных конвейеров, выполняющих несколько задач за сессию, это быстро накапливается.

Ad

Функции, выходящие за рамки Playwright MCP

  • Проверка CSScss @e3 padding возвращает вычисленные значения. inspect @e3 даёт полную модель блока + 16 ключевых стилей в формате JSON.
  • Живое изменение стилейstyle @e3 color red с style --undo. Отладка CSS без изменения исходного кода.
  • Сравнение снимковsnapshot -D сравнивает деревья ARIA до и после.
  • Пресеты адаптивностиresponsive /tmp делает скриншоты для мобильных, планшетов и десктопов одной командой.
  • Профили аутентификацииhandoff открывает видимый Chrome для ручного входа через SSO/MFA, resume возвращает в режим без графического интерфейса, auth-save admin шифрует сессию (AES-256). В следующий раз: goto-auth https://app.com/dashboard --profile admin — вход не требуется.
  • Пакетное выполнение командchain [["goto","url"],["snapshot","-i"],["console"]] выполняет несколько команд за один вызов.

Техническая реализация

Архитектура: AI-агент → Bash → CLI-клиент (bin/browse.mjs) → HTTP POST (localhost) → Сервер (src/server.mjs) → API Playwright → Chromium (без графического интерфейса).

Чистый Node.js. Playwright — единственная зависимость. Никакого Bun, Rust или накладных расходов MCP.

Интеграция с Claude Code

Установите глобально:

npm install -g @tuandm/browser-cli

Добавьте в .claude/settings.json:

{
  "permissions": {
    "allow": ["Bash(browser-cli*)"]
  }
}

Добавьте правило в .claude/rules/browser-cli.md, указывающее Claude использовать Browser CLI вместо Playwright MCP. Создатель провёл 5 оценочных сценариев, и Claude каждый раз выбирал правильную команду с загруженным правилом.

Также он поставляется как плагин Claude Code (plugin.json включён) для будущего распространения через маркетплейс.

Вдохновение и технологии

Вдохновлено gstack от Garry Tan, который первым применил подход с постоянным CLI Chromium для AI-агентов. Ключевая идея заключалась в том, что команды Bash значительно эффективнее по токенам, чем MCP, для автоматизации браузера. Основная технология — Playwright от Microsoft.

📖 Прочитайте полный источник: r/ClaudeAI

Ad

👀 Смотрите также

История файлов Claude: Расширение VS Code для отслеживания сессий кода в Claude
Инструменты

История файлов Claude: Расширение VS Code для отслеживания сессий кода в Claude

Расширение VS Code под названием Claude File History отслеживает каждую сессию Claude Code, которая затрагивала ваши файлы, позволяя находить прошлые беседы, просматривать, что обсуждалось, и возобновлять беседы двойным щелчком.

OpenClawRadar
Представляем Lean Collab: многопользовательский оркестратор для длительных задач LLM.
Инструменты

Представляем Lean Collab: многопользовательский оркестратор для длительных задач LLM.

Lean Collab — это оркестратор с открытым исходным кодом, предназначенный для управления долгосрочными задачами LLM с использованием координированных, параллельных подагентов.

OpenClawRadar
Агентная память V4 достигает 96,2% на бенчмарке LongMemEval, превосходя коммерческие системы памяти искусственного интеллекта.
Инструменты

Агентная память V4 достигает 96,2% на бенчмарке LongMemEval, превосходя коммерческие системы памяти искусственного интеллекта.

agentmemory V4 набрал 96,2% на LongMemEval, превзойдя несколько финансируемых компаний в области памяти ИИ, включая PwC Chronos (95,6%), Mastra (94,87%) и OMEGA (93,2%). Система была создана в одиночку за 16 дней на среднебюджетном игровом ПК с бюджетом в $1000.

OpenClawRadar
Операционная система с открытым исходным кодом для агентов ИИ: ОС на Rust с песочницей WASM и функцией Hands.
Инструменты

Операционная система с открытым исходным кодом для агентов ИИ: ОС на Rust с песочницей WASM и функцией Hands.

Выпущена операционная система с открытым исходным кодом для ИИ-агентов, содержащая 137 тысяч строк кода на Rust под лицензией MIT. Система запускает агентов в WASM-песочницах с 16 уровнями безопасности и представляет функцию 'Hands' для запланированной автономной работы агентов.

OpenClawRadar