Protocolo de Navegador para Agentes: Fork de código aberto do Chrome para agentes de IA atinge 90% no benchmark Mind2Web

✍️ OpenClawRadar📅 Publicado: March 11, 2026🔗 Source
Protocolo de Navegador para Agentes: Fork de código aberto do Chrome para agentes de IA atinge 90% no benchmark Mind2Web
Ad

Protocolo de Navegador de Agente: Um navegador construído para agentes de IA

O Protocolo de Navegador de Agente (ABP) é um fork de navegador de código aberto do Chrome projetado especificamente para agentes de IA. O projeto foi criado como um desafio para construir um navegador centrado em agentes e conquistar a pontuação mais alta no Online Mind2Web Benchmark.

Abordagem técnica principal

A principal percepção por trás do ABP é que os agentes de IA se destacam em chat baseado em turnos, mas têm dificuldades com a tomada de decisões em tempo contínuo. Para maximizar o desempenho de LLMs em tarefas de navegador, o ABP converte a navegação na web em chat multimodal por meio de:

  • Congelar o JavaScript e o tempo após cada ação, para que a página da web fique congelada enquanto o agente pensa
  • Capturar todos os eventos relevantes resultantes das ações, incluindo seletores de arquivos, downloads, solicitações de permissão e diálogos
  • Retornar esses eventos junto com uma captura de tela da página congelada, para que o agente possa raciocinar holisticamente sobre o estado do navegador com contexto completo

Desempenho e desenvolvimento

O ABP alcançou 90,53% no Online Mind2Web Benchmark, mantendo a pontuação mais alta por dois dias até que o GPT-5.4 o superasse com 92,8%. O desenvolvedor usou o Claude Opus-4.5 para trabalhar no projeto durante noites e finais de semana, concluindo-o em dois meses.

Ad

Aplicações práticas

De acordo com a fonte, o ABP se destaca em:

  • Preencher formulários
  • Compras online
  • Download de arquivos
  • Upload de arquivos
  • Pedir comida para viagem
  • Engenharia reversa de APIs não documentadas de um site

Começando

Para adicionar o ABP ao Claude Code:

claude mcp add browser -- npx -y agent-browser-protocol --mcp

Então você pode dar comandos ao Claude como:

Find me kung pao chicken near 415 Mission St, San Francisco on Doordash.

Recursos

Repositório GitHub: https://github.com/theredsix/agent-browser-protocol

Resultados do benchmark: https://github.com/theredsix/abp-online-mind2web-results

📖 Read the full source: r/ClaudeAI

Ad

👀 See Also

Habilidade de Tradução de Vídeo OpenClaw Disponível no ClawHub
Tools

Habilidade de Tradução de Vídeo OpenClaw Disponível no ClawHub

Uma nova habilidade de Tradutor de Vídeo para agentes OpenClaw permite que os usuários façam upload de um vídeo ou forneçam um URL para obter uma prévia traduzida instantaneamente. A habilidade está hospedada no ClawHub.

OpenClawRadar
Marketing Wisdom MCP: Busca Semântica Gratuita para Insights de Startups
Tools

Marketing Wisdom MCP: Busca Semântica Gratuita para Insights de Startups

Um servidor MCP gratuito oferece busca semântica em 6.700 insights de 1.040 episódios dos podcasts My First Million e Starter Story. Ele disponibiliza quatro ferramentas para consultar sabedoria de fundadores sobre crescimento, marketing e estratégias de negócios.

OpenClawRadar
Modelos Qwen Locais Alcançam Automação de Navegador com Planejamento Passo a Passo e DOM Compacto
Tools

Modelos Qwen Locais Alcançam Automação de Navegador com Planejamento Passo a Passo e DOM Compacto

Um desenvolvedor descobriu que LLMs locais pequenos como Qwen 8B e 4B conseguem automatizar navegadores usando planejamento passo a passo em vez de planos multi-etapas antecipados, combinado com uma representação DOM semântica compacta que reduz o uso de tokens de 50-100K+ para ~15K em fluxos completos.

OpenClawRadar
NLA transforma as ativações internas do Gemma 3 em texto legível para qualquer token
Tools

NLA transforma as ativações internas do Gemma 3 em texto legível para qualquer token

A Anthropic lançou os Natural Language Autoencoders (NLA), que decodificam o estado interno de um modelo em texto. Combinado com o Gemma 3, o Auto Verbalizer explica o que o modelo estava "pensando" para qualquer token gerado. Os pesos estão no Hugging Face; demo no Neuronpedia.

OpenClawRadar