O benchmark mostra que as ferramentas de automação de navegador por IA variam 2,6x nos custos de token, apesar da precisão idêntica.

✍️ OpenClawRadar📅 Publicado: March 17, 2026🔗 Source
O benchmark mostra que as ferramentas de automação de navegador por IA variam 2,6x nos custos de token, apesar da precisão idêntica.
Ad

Resultados do benchmark: Mesma precisão, custos diferentes

Um benchmark testou 4 ferramentas de automação de navegador CLI usando o mesmo modelo (Claude Sonnet 4.6) em 6 tarefas do mundo real contra sites ao vivo. Todas as ferramentas obtiveram 100% de precisão em 18 execuções de tarefas, mas o uso de tokens variou drasticamente:

  • openbrowser-ai: 36.010 tokens / 84,8s / 15,3 chamadas de ferramenta
  • browser-use: 77.123 tokens / 106,0s / 20,7 chamadas de ferramenta
  • playwright-cli (Microsoft): 94.130 tokens / 118,3s / 25,7 chamadas de ferramenta
  • agent-browser (Vercel): 90.107 tokens / 99,0s / 25,0 chamadas de ferramenta

Openbrowser-ai usou 2,1 a 2,6 vezes menos tokens do que as outras ferramentas. O benchmark descobriu que a contagem de chamadas de ferramenta é o preditor mais forte do custo de tokens porque cada chamada força o LLM a reprocessar todo o histórico da conversa.

Ad

Como as ferramentas diferem na implementação

Todas as quatro ferramentas mantêm sessões persistentes do navegador via daemons em segundo plano, podem executar JavaScript no lado do servidor e retornar apenas o resultado, trabalham para tornar o estado da página compacto e suportam alguma forma de execução de código.

browser-use expõe comandos CLI individuais: open, click, input, scroll, state, eval. O LLM emite um comando por chamada de ferramenta. eval executa JavaScript no contexto da página. O estado da página é uma árvore DOM aprimorada com índices [N] com aproximadamente 880 caracteres por página. Ele se comunica com o Chrome via CDP direto através de sua biblioteca cdp-use.

agent-browser segue um padrão similar: open, click, fill, snapshot, eval. É um binário nativo Rust que se comunica diretamente com o Chrome via CDP. O estado da página é uma árvore de acessibilidade com referências u/eN. A flag -i produz saída compacta apenas interativa com cerca de 590 caracteres. Os comandos podem ser encadeados com && mas cada um ainda é uma solicitação separada ao daemon.

playwright-cli oferece comandos individuais mais run-code, que aceita JavaScript Playwright arbitrário com acesso total à API. O LLM pode escrever código como run-code "async page => { await page.goto('url'); await page.click('.btn'); return await page.title(); }" e executar múltiplas operações em uma chamada. O estado da página é uma árvore de acessibilidade salva em arquivos .yml com aproximadamente 1.420 caracteres, com snapshots incrementais que enviam apenas diferenças após a primeira leitura.

openbrowser-ai não tem comandos individuais. A única interface é código Python via -c:

openbrowser-ai -c 'await navigate("https://en.wikipedia.org/wiki/Python") info = await evaluate("document.querySelector('.infobox')?.innerText") print(info)'

navigate, click, input_text, evaluate, scroll são funções Python assíncronas em um namespace persistente. O estado da página é DOM com índices [i_N] com aproximadamente 450 caracteres. As variáveis persistem entre chamadas como em um notebook Jupyter.

O benchmark observou que o LLM fez menos chamadas de ferramenta com OpenBrowser (15,3 vs 20-26 para outras ferramentas), o que os autores atribuem à interface apenas de código naturalmente incentivar o agrupamento de operações.

📖 Read the full source: r/ClaudeAI

Ad

👀 See Also

Tokenmeter: Aplicativo gratuito para Windows para rastrear o uso de tokens do Claude Code offline
Tools

Tokenmeter: Aplicativo gratuito para Windows para rastrear o uso de tokens do Claude Code offline

Tokenmeter é um aplicativo gratuito e de código aberto para Windows que lê arquivos .jsonl locais do Claude Code para mostrar uso de tokens, custos estimados, economia de cache e um mapa de calor de 90 dias de atividade — tudo offline.

OpenClawRadar
Kelet: Análise Automatizada de Causa Raiz para Agentes de IA
Tools

Kelet: Análise Automatizada de Causa Raiz para Agentes de IA

Kelet é um serviço que analisa automaticamente falhas de agentes de IA em produção, agrupando rastreamentos e sinais para identificar causas raízes e sugerir correções. Ele se integra via SDKs Python/TypeScript ou uma habilidade de instalador e está atualmente gratuito durante a fase beta.

OpenClawRadar
Limonada por AMD: Servidor Local de LLM de Código Aberto para GPU e NPU
Tools

Limonada por AMD: Servidor Local de LLM de Código Aberto para GPU e NPU

Lemonade é um servidor de IA local de código aberto que executa modelos de texto, imagem e fala em GPUs e NPUs. É compatível com a API da OpenAI, suporta múltiplos modelos simultaneamente e possui um backend nativo em C++ de apenas 2MB.

OpenClawRadar
Causa Raiz da Corrupção do Título da Sessão da Extensão Claude Code do VS Code Identificada
Tools

Causa Raiz da Corrupção do Título da Sessão da Extensão Claude Code do VS Code Identificada

Um desenvolvedor identificou a causa raiz arquitetônica para a corrupção de títulos de sessão na extensão Claude Code do VS Code, afetando mais de 20 problemas no GitHub. O problema surge da extensão ler títulos através de uma busca de string bruta em arquivos de sessão, levando a três modos de falha.

OpenClawRadar