Browser-Harness: LLMs direkten CDP-Zugriff gewähren, um Browseraufgaben eigenständig zu korrigieren

Browser Harness ist ein selbstheilendes Werkzeug, das LLMs vollständige Freiheit bei der Erledigung von Browseraufgaben gibt, indem es direkt über einen CDP-Websocket (~592 Zeilen Python) mit Chrome verbunden wird. Anstatt Chrome in vordefinierte Funktionen zu verpacken (wie Playwright MCP oder agent-browser), bietet es einen schlanken Daemon, der den Websocket, grundlegende Helfer und eine SKILL.md-Datei bereithält – und dem Agenten erlaubt, bei Bedarf eigene Tools zu schreiben.
So funktioniert es
Die Kernkonzepte sind:
- Ein Daemon, der den CDP-Websocket am Leben hält
- Sehr einfache Tools in
helpers.py(~195 Zeilen) - Eine
SKILL.md, die die Nutzung erklärt
Wenn das LLM eine Funktion benötigt, die nicht existiert, bearbeitet es helpers.py und fügt sie hinzu. Die Autoren berichten von einem Fall, in dem der Agent eine Datei hochladen wollte, keine upload_file()-Funktion fand, sie selbst mit DOM.setFileInputFiles schrieb und fortfuhr – nur in einem Git-Diff sichtbar.
Im Vergleich zu anderen Ansätzen
Andere Tools (Playwright MCP, browser-use CLI, agent-browser, Chrome DevTools MCP) hüllen Chrome in vordefinierte Funktionen. Ihr schlimmster Fehlermodus ist still: click() gibt Erfolg zurück, aber nichts ist passiert. Browser Harness zielt darauf ab, dem LLM perfekten Kontext und die Freiheit zur Selbstkorrektur zu geben.
Einrichtung und Installation
Installieren Sie es mit Claude Code oder Codex, indem Sie Folgendes einfügen:
Richten Sie https://github.com/browser-use/browser-harness für mich ein.
Der Agent liest install.md für den Start, dann SKILL.md für den normalen Gebrauch und prüft immer helpers.py auf verfügbare Funktionen.
Beispiele aus der Praxis
- Spielt die Stockfish-Schachengine
- Stellt einen Weltrekord in Tetris auf
- Zeichnet ein Herz mit JavaScript
Mitwirken
Beiträge sind willkommen: Fügen Sie Domänenfähigkeiten unter domain-skills/ für Websites wie LinkedIn, Amazon usw. hinzu. Fähigkeiten werden vom Harness generiert, nicht von Hand erstellt. Fehlerbehebungen, Dokumentation und Verbesserungen der Helfer werden ebenfalls akzeptiert.
Lizenz: MIT.
📖 Vollständige Quelle lesen: HN LLM Tools
👀 Siehe auch

AgentPVP: Eine agentenzentrierte Wettbewerbsarena für LLMs mit ELO, Rivalitäten und Prompt-Injection-Sandbox
AgentPVP ermöglicht es LLM-Agenten, sich zu registrieren, 5 Brettspiele über JSON-APIs zu spielen, ein spielspezifisches ELO zu führen, Rivalitätsdateien zu schreiben und sich in einer globalen Lounge anzufeinden. HTML ist optional – die API ist die Seite.

Sgai: Zielorientiertes Multi-Agenten-Softwareentwicklungstool
Sgai ist ein Open-Source-Go-Tool, das KI-Agenten koordiniert, um in GOAL.md-Dateien definierte Softwareziele auszuführen. Es zerlegt Ziele in DAG-Workflows, führt Tests für Abschlussgates durch und arbeitet lokal mit einem Web-Dashboard zur Überwachung.

Chromeflow: Chrome-Erweiterung automatisiert Web-UI-Aufgaben für Claude
Chromeflow ist eine kostenlose, quelloffene Chrome-Erweiterung und MCP-Server, die mit Claude Code erstellt wurde und Claude Browsersteuerung gibt, um manuelle Web-UI-Aufgaben wie die Einrichtung von Stripe, Supabase oder SendGrid zu automatisieren. Es hebt Elemente zum Klicken hervor, füllt Felder aus, klickt auf Speichern und schreibt API-Schlüssel direkt in .env-Dateien.

Open-Source-MCP-Server ermöglicht es KI-Agenten, L402-Zahlungen über das Lightning-Netzwerk abzuwickeln.
Ein mit FastMCP erstelltes Python-MCP-Plugin fängt HTTP-402-Zahlungserforderlich-Antworten ab, bezahlt Lightning-Network-Rechnungen und ruft Daten für KI-Agenten ab. Das Repository enthält einen lokalen Dummy-Agenten zum Testen, ohne echte Gelder auszugeben.