Protocolo de Navegador para Agentes: Fork de código aberto do Chrome para agentes de IA atinge 90% no benchmark Mind2Web

Protocolo de Navegador de Agente: Um navegador construído para agentes de IA
O Protocolo de Navegador de Agente (ABP) é um fork de navegador de código aberto do Chrome projetado especificamente para agentes de IA. O projeto foi criado como um desafio para construir um navegador centrado em agentes e conquistar a pontuação mais alta no Online Mind2Web Benchmark.
Abordagem técnica principal
A principal percepção por trás do ABP é que os agentes de IA se destacam em chat baseado em turnos, mas têm dificuldades com a tomada de decisões em tempo contínuo. Para maximizar o desempenho de LLMs em tarefas de navegador, o ABP converte a navegação na web em chat multimodal por meio de:
- Congelar o JavaScript e o tempo após cada ação, para que a página da web fique congelada enquanto o agente pensa
- Capturar todos os eventos relevantes resultantes das ações, incluindo seletores de arquivos, downloads, solicitações de permissão e diálogos
- Retornar esses eventos junto com uma captura de tela da página congelada, para que o agente possa raciocinar holisticamente sobre o estado do navegador com contexto completo
Desempenho e desenvolvimento
O ABP alcançou 90,53% no Online Mind2Web Benchmark, mantendo a pontuação mais alta por dois dias até que o GPT-5.4 o superasse com 92,8%. O desenvolvedor usou o Claude Opus-4.5 para trabalhar no projeto durante noites e finais de semana, concluindo-o em dois meses.
Aplicações práticas
De acordo com a fonte, o ABP se destaca em:
- Preencher formulários
- Compras online
- Download de arquivos
- Upload de arquivos
- Pedir comida para viagem
- Engenharia reversa de APIs não documentadas de um site
Começando
Para adicionar o ABP ao Claude Code:
claude mcp add browser -- npx -y agent-browser-protocol --mcpEntão você pode dar comandos ao Claude como:
Find me kung pao chicken near 415 Mission St, San Francisco on Doordash.Recursos
Repositório GitHub: https://github.com/theredsix/agent-browser-protocol
Resultados do benchmark: https://github.com/theredsix/abp-online-mind2web-results
📖 Read the full source: r/ClaudeAI
👀 See Also

Habilidade de Tradução de Vídeo OpenClaw Disponível no ClawHub
Uma nova habilidade de Tradutor de Vídeo para agentes OpenClaw permite que os usuários façam upload de um vídeo ou forneçam um URL para obter uma prévia traduzida instantaneamente. A habilidade está hospedada no ClawHub.

Marketing Wisdom MCP: Busca Semântica Gratuita para Insights de Startups
Um servidor MCP gratuito oferece busca semântica em 6.700 insights de 1.040 episódios dos podcasts My First Million e Starter Story. Ele disponibiliza quatro ferramentas para consultar sabedoria de fundadores sobre crescimento, marketing e estratégias de negócios.

Modelos Qwen Locais Alcançam Automação de Navegador com Planejamento Passo a Passo e DOM Compacto
Um desenvolvedor descobriu que LLMs locais pequenos como Qwen 8B e 4B conseguem automatizar navegadores usando planejamento passo a passo em vez de planos multi-etapas antecipados, combinado com uma representação DOM semântica compacta que reduz o uso de tokens de 50-100K+ para ~15K em fluxos completos.

NLA transforma as ativações internas do Gemma 3 em texto legível para qualquer token
A Anthropic lançou os Natural Language Autoencoders (NLA), que decodificam o estado interno de um modelo em texto. Combinado com o Gemma 3, o Auto Verbalizer explica o que o modelo estava "pensando" para qualquer token gerado. Os pesos estão no Hugging Face; demo no Neuronpedia.