Agent-Browser-Protokoll: Open-Source-Chrome-Fork für KI-Agenten erreicht 90 % auf dem Mind2Web-Benchmark

Agent Browser Protocol: Ein Browser für KI-Agenten
Agent Browser Protocol (ABP) ist eine Open-Source-Browser-Abspaltung von Chrome, die speziell für KI-Agenten entwickelt wurde. Das Projekt wurde als Herausforderung geschaffen, einen agentenzentrierten Browser zu bauen und die beste Punktzahl im Online Mind2Web Benchmark zu erreichen.
Wichtiger technischer Ansatz
Die zentrale Erkenntnis hinter ABP ist, dass KI-Agenten in rundenbasiertem Chat hervorragend sind, aber mit kontinuierlicher Zeitentscheidung kämpfen. Um die Leistung von LLMs bei Browseraufgaben zu maximieren, wandelt ABP das Surfen im Web in multimodalen Chat um, indem es:
- JavaScript und die Zeit nach jeder Aktion einfriert, sodass die Webseite eingefroren ist, während der Agent denkt
- Alle relevanten Ereignisse erfasst, die aus Aktionen resultieren, einschließlich Dateiauswahl, Downloads, Berechtigungsanfragen und Dialogfenstern
- Diese Ereignisse zusammen mit einem Screenshot der eingefrorenen Seite zurückgibt, damit der Agent den Browserzustand ganzheitlich mit vollem Kontext analysieren kann
Leistung und Entwicklung
ABP erreichte 90,53 % im Online Mind2Web Benchmark und hielt die beste Punktzahl zwei Tage lang, bis GPT-5.4 es mit 92,8 % übertraf. Der Entwickler nutzte Claude Opus-4.5, um nachts und an Wochenenden am Projekt zu arbeiten, und schloss es innerhalb von zwei Monaten ab.
Praktische Anwendungen
Laut der Quelle ist ABP besonders gut bei:
- Formularausfüllen
- Online-Shopping
- Dateien herunterladen
- Dateien hochladen
- Essen bestellen
- Reverse Engineering undokumentierter APIs einer Website
Erste Schritte
Um ABP zu Claude Code hinzuzufügen:
claude mcp add browser -- npx -y agent-browser-protocol --mcpDann können Sie Claude Befehle wie diesen geben:
Find me kung pao chicken near 415 Mission St, San Francisco on Doordash.Ressourcen
GitHub-Repository: https://github.com/theredsix/agent-browser-protocol
Benchmark-Ergebnisse: https://github.com/theredsix/abp-online-mind2web-results
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Automatisieren Sie die GitHub-PR-Überprüfung mit Claude Code-Agenten
Ein Entwickler baute einen Agenten, der GitHub-Erwähnungen verarbeitet, Claude Code Worker startet, um PRs zu überprüfen oder zu korrigieren, und nur mehrdeutige Fälle an Menschen eskalieren lässt.

HolyClaude: Docker-Container für Claude-Code mit Browser-UI und Headless Chromium
HolyClaude ist ein Open-Source-Docker-Container, der die Claude Code CLI mit einer Browser-UI, headlessem Chromium und zusätzlichen KI-Codierungstools bündelt. Die Einrichtung erfordert nur docker compose up und bietet Zugriff unter localhost:3001.

Tatu: Open-Source-Sicherheitsschicht für Claude – blockiert Geheimnisse und zerstörerische Befehle in Code-Blöcken
Tatu ist ein Open-Source-Hook-System, das Claude-Code-Aktionen in Echtzeit abfängt, um geleakte Geheimnisse zu blockieren, PII zu kennzeichnen und zerstörerische Befehle vor der Ausführung zu verweigern. Die Installation erfolgt über pip/pipx mit 'tatu-hook init', um den Audit-Modus zu aktivieren.

Hippocampus: Ein persistentes Speichersystem für KI-Agenten unter Verwendung von Komprimierungsbäumen
Hipocampus löst das Problem, dass KI-Agenten den Kontext zwischen Sitzungen vergessen, indem es einen Komprimierungsbaum implementiert, der den Gesprächsverlauf über fünf Ebenen komprimiert: Rohdaten → täglich → wöchentlich → monatlich → Wurzel, mit einem Themenindex namens ROOT.md.