O benchmark mostra que as ferramentas de automação de navegador por IA variam 2,6x nos custos de token, apesar da precisão idêntica.

Resultados do benchmark: Mesma precisão, custos diferentes
Um benchmark testou 4 ferramentas de automação de navegador CLI usando o mesmo modelo (Claude Sonnet 4.6) em 6 tarefas do mundo real contra sites ao vivo. Todas as ferramentas obtiveram 100% de precisão em 18 execuções de tarefas, mas o uso de tokens variou drasticamente:
- openbrowser-ai: 36.010 tokens / 84,8s / 15,3 chamadas de ferramenta
- browser-use: 77.123 tokens / 106,0s / 20,7 chamadas de ferramenta
- playwright-cli (Microsoft): 94.130 tokens / 118,3s / 25,7 chamadas de ferramenta
- agent-browser (Vercel): 90.107 tokens / 99,0s / 25,0 chamadas de ferramenta
Openbrowser-ai usou 2,1 a 2,6 vezes menos tokens do que as outras ferramentas. O benchmark descobriu que a contagem de chamadas de ferramenta é o preditor mais forte do custo de tokens porque cada chamada força o LLM a reprocessar todo o histórico da conversa.
Como as ferramentas diferem na implementação
Todas as quatro ferramentas mantêm sessões persistentes do navegador via daemons em segundo plano, podem executar JavaScript no lado do servidor e retornar apenas o resultado, trabalham para tornar o estado da página compacto e suportam alguma forma de execução de código.
browser-use expõe comandos CLI individuais: open, click, input, scroll, state, eval. O LLM emite um comando por chamada de ferramenta. eval executa JavaScript no contexto da página. O estado da página é uma árvore DOM aprimorada com índices [N] com aproximadamente 880 caracteres por página. Ele se comunica com o Chrome via CDP direto através de sua biblioteca cdp-use.
agent-browser segue um padrão similar: open, click, fill, snapshot, eval. É um binário nativo Rust que se comunica diretamente com o Chrome via CDP. O estado da página é uma árvore de acessibilidade com referências u/eN. A flag -i produz saída compacta apenas interativa com cerca de 590 caracteres. Os comandos podem ser encadeados com && mas cada um ainda é uma solicitação separada ao daemon.
playwright-cli oferece comandos individuais mais run-code, que aceita JavaScript Playwright arbitrário com acesso total à API. O LLM pode escrever código como run-code "async page => { await page.goto('url'); await page.click('.btn'); return await page.title(); }" e executar múltiplas operações em uma chamada. O estado da página é uma árvore de acessibilidade salva em arquivos .yml com aproximadamente 1.420 caracteres, com snapshots incrementais que enviam apenas diferenças após a primeira leitura.
openbrowser-ai não tem comandos individuais. A única interface é código Python via -c:
openbrowser-ai -c 'await navigate("https://en.wikipedia.org/wiki/Python") info = await evaluate("document.querySelector('.infobox')?.innerText") print(info)'navigate, click, input_text, evaluate, scroll são funções Python assíncronas em um namespace persistente. O estado da página é DOM com índices [i_N] com aproximadamente 450 caracteres. As variáveis persistem entre chamadas como em um notebook Jupyter.
O benchmark observou que o LLM fez menos chamadas de ferramenta com OpenBrowser (15,3 vs 20-26 para outras ferramentas), o que os autores atribuem à interface apenas de código naturalmente incentivar o agrupamento de operações.
📖 Read the full source: r/ClaudeAI
👀 See Also

Tokenmeter: Aplicativo gratuito para Windows para rastrear o uso de tokens do Claude Code offline
Tokenmeter é um aplicativo gratuito e de código aberto para Windows que lê arquivos .jsonl locais do Claude Code para mostrar uso de tokens, custos estimados, economia de cache e um mapa de calor de 90 dias de atividade — tudo offline.

Kelet: Análise Automatizada de Causa Raiz para Agentes de IA
Kelet é um serviço que analisa automaticamente falhas de agentes de IA em produção, agrupando rastreamentos e sinais para identificar causas raízes e sugerir correções. Ele se integra via SDKs Python/TypeScript ou uma habilidade de instalador e está atualmente gratuito durante a fase beta.

Limonada por AMD: Servidor Local de LLM de Código Aberto para GPU e NPU
Lemonade é um servidor de IA local de código aberto que executa modelos de texto, imagem e fala em GPUs e NPUs. É compatível com a API da OpenAI, suporta múltiplos modelos simultaneamente e possui um backend nativo em C++ de apenas 2MB.

Causa Raiz da Corrupção do Título da Sessão da Extensão Claude Code do VS Code Identificada
Um desenvolvedor identificou a causa raiz arquitetônica para a corrupção de títulos de sessão na extensão Claude Code do VS Code, afetando mais de 20 problemas no GitHub. O problema surge da extensão ler títulos através de uma busca de string bruta em arquivos de sessão, levando a três modos de falha.