Benchmark: Ferramentas de IA Variam 2,6x em Custos de Token

Resultados do benchmark: Mesma precisão, custos diferentes

Um benchmark testou 4 ferramentas de automação de navegador CLI usando o mesmo modelo (Claude Sonnet 4.6) em 6 tarefas do mundo real contra sites ao vivo. Todas as ferramentas obtiveram 100% de precisão em 18 execuções de tarefas, mas o uso de tokens variou drasticamente:

openbrowser-ai: 36.010 tokens / 84,8s / 15,3 chamadas de ferramenta
browser-use: 77.123 tokens / 106,0s / 20,7 chamadas de ferramenta
playwright-cli (Microsoft): 94.130 tokens / 118,3s / 25,7 chamadas de ferramenta
agent-browser (Vercel): 90.107 tokens / 99,0s / 25,0 chamadas de ferramenta

Openbrowser-ai usou 2,1 a 2,6 vezes menos tokens do que as outras ferramentas. O benchmark descobriu que a contagem de chamadas de ferramenta é o preditor mais forte do custo de tokens porque cada chamada força o LLM a reprocessar todo o histórico da conversa.

Como as ferramentas diferem na implementação

Todas as quatro ferramentas mantêm sessões persistentes do navegador via daemons em segundo plano, podem executar JavaScript no lado do servidor e retornar apenas o resultado, trabalham para tornar o estado da página compacto e suportam alguma forma de execução de código.

browser-use expõe comandos CLI individuais: open, click, input, scroll, state, eval. O LLM emite um comando por chamada de ferramenta. eval executa JavaScript no contexto da página. O estado da página é uma árvore DOM aprimorada com índices [N] com aproximadamente 880 caracteres por página. Ele se comunica com o Chrome via CDP direto através de sua biblioteca cdp-use.

agent-browser segue um padrão similar: open, click, fill, snapshot, eval. É um binário nativo Rust que se comunica diretamente com o Chrome via CDP. O estado da página é uma árvore de acessibilidade com referências u/eN. A flag -i produz saída compacta apenas interativa com cerca de 590 caracteres. Os comandos podem ser encadeados com && mas cada um ainda é uma solicitação separada ao daemon.

playwright-cli oferece comandos individuais mais run-code, que aceita JavaScript Playwright arbitrário com acesso total à API. O LLM pode escrever código como run-code "async page => { await page.goto('url'); await page.click('.btn'); return await page.title(); }" e executar múltiplas operações em uma chamada. O estado da página é uma árvore de acessibilidade salva em arquivos .yml com aproximadamente 1.420 caracteres, com snapshots incrementais que enviam apenas diferenças após a primeira leitura.

openbrowser-ai não tem comandos individuais. A única interface é código Python via -c:

openbrowser-ai -c 'await navigate("https://en.wikipedia.org/wiki/Python") info = await evaluate("document.querySelector('.infobox')?.innerText") print(info)'

navigate, click, input_text, evaluate, scroll são funções Python assíncronas em um namespace persistente. O estado da página é DOM com índices [i_N] com aproximadamente 450 caracteres. As variáveis persistem entre chamadas como em um notebook Jupyter.

O benchmark observou que o LLM fez menos chamadas de ferramenta com OpenBrowser (15,3 vs 20-26 para outras ferramentas), o que os autores atribuem à interface apenas de código naturalmente incentivar o agrupamento de operações.

📖 Read the full source: r/ClaudeAI

O benchmark mostra que as ferramentas de automação de navegador por IA variam 2,6x nos custos de token, apesar da precisão idêntica.

Resultados do benchmark: Mesma precisão, custos diferentes

Como as ferramentas diferem na implementação

👀 See Also

Tokenmeter: Aplicativo gratuito para Windows para rastrear o uso de tokens do Claude Code offline

Kelet: Análise Automatizada de Causa Raiz para Agentes de IA

Limonada por AMD: Servidor Local de LLM de Código Aberto para GPU e NPU

Causa Raiz da Corrupção do Título da Sessão da Extensão Claude Code do VS Code Identificada