Agent-Browser-Protokoll: Open-Source-Chrome-Fork für KI-Agenten erreicht 90 % auf dem Mind2Web-Benchmark

Agent Browser Protocol: Ein Browser für KI-Agenten
Agent Browser Protocol (ABP) ist eine Open-Source-Browser-Abspaltung von Chrome, die speziell für KI-Agenten entwickelt wurde. Das Projekt wurde als Herausforderung geschaffen, einen agentenzentrierten Browser zu bauen und die beste Punktzahl im Online Mind2Web Benchmark zu erreichen.
Wichtiger technischer Ansatz
Die zentrale Erkenntnis hinter ABP ist, dass KI-Agenten in rundenbasiertem Chat hervorragend sind, aber mit kontinuierlicher Zeitentscheidung kämpfen. Um die Leistung von LLMs bei Browseraufgaben zu maximieren, wandelt ABP das Surfen im Web in multimodalen Chat um, indem es:
- JavaScript und die Zeit nach jeder Aktion einfriert, sodass die Webseite eingefroren ist, während der Agent denkt
- Alle relevanten Ereignisse erfasst, die aus Aktionen resultieren, einschließlich Dateiauswahl, Downloads, Berechtigungsanfragen und Dialogfenstern
- Diese Ereignisse zusammen mit einem Screenshot der eingefrorenen Seite zurückgibt, damit der Agent den Browserzustand ganzheitlich mit vollem Kontext analysieren kann
Leistung und Entwicklung
ABP erreichte 90,53 % im Online Mind2Web Benchmark und hielt die beste Punktzahl zwei Tage lang, bis GPT-5.4 es mit 92,8 % übertraf. Der Entwickler nutzte Claude Opus-4.5, um nachts und an Wochenenden am Projekt zu arbeiten, und schloss es innerhalb von zwei Monaten ab.
Praktische Anwendungen
Laut der Quelle ist ABP besonders gut bei:
- Formularausfüllen
- Online-Shopping
- Dateien herunterladen
- Dateien hochladen
- Essen bestellen
- Reverse Engineering undokumentierter APIs einer Website
Erste Schritte
Um ABP zu Claude Code hinzuzufügen:
claude mcp add browser -- npx -y agent-browser-protocol --mcpDann können Sie Claude Befehle wie diesen geben:
Find me kung pao chicken near 415 Mission St, San Francisco on Doordash.Ressourcen
GitHub-Repository: https://github.com/theredsix/agent-browser-protocol
Benchmark-Ergebnisse: https://github.com/theredsix/abp-online-mind2web-results
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

OpenClaw vs Hermes: Nach über 100 Deployments den richtigen selbstgehosteten KI-Agenten wählen
Nachdem er über 100 KI-Agenten für Kunden bereitgestellt hat, teilt ein Reddit-Nutzer hart erarbeitete Lektionen: OpenClaw (149K Sterne) ist das zuverlässige Arbeitstier für einzelne/kleine Flotten; Hermes glänzt bei der Multi-Agenten-Orchestrierung, hat aber eine kleinere Community.

DocMason: Lokale Agenten-Wissensdatenbank für komplexe Office-Dateien
DocMason ist eine Repo-native Agenten-App, die lokale Wissensdatenbanken aus komplexen Office-Dokumenten wie PPTX, DOCX, Excel und PDFs erstellt. Sie läuft vollständig innerhalb von Codex oder Claude Code, bewahrt die Dokumentenstruktur und liefert nachvollziehbare Antworten mit Herkunftsnachweis.

WebClaw: Open-Source MCP-Server für Web-Extraktion mit Claude
WebClaw ist ein quelloffener MCP-Server, der mit Claude Code entwickelt wurde und Web-Extraktionstools für Claude Desktop und Claude Code bereitstellt. Er löst die Einschränkungen von Claudes integriertem web_fetch durch TLS-Fingerprinting und Inhaltsoptimierung.

Claude-IDE-Bridge funktioniert jetzt auf Remote-Servern für KI-unterstützte Entwicklung
Das Claude-IDE-Bridge-Tool verbindet nun Claude AI mit Remote-Entwicklungsumgebungen auf VPS- oder Cloud-Maschinen und ermöglicht den Zugriff auf Live-Diagnosen, geöffnete Dateien und Testfehler von jedem Gerät aus.