Browser CLI: Ein Token-effizientes Browser-Automatisierungstool für KI-Codierungsagenten

✍️ OpenClawRadar📅 Veröffentlicht: 15. April 2026🔗 Source
Browser CLI: Ein Token-effizientes Browser-Automatisierungstool für KI-Codierungsagenten
Ad

Was Browser CLI tut

Browser CLI ist ein Browser-Automatisierungstool, das entwickelt wurde, um den Token-Overhead in KI-Coding-Agenten zu adressieren. Der Ersteller stellte fest, dass die Browser-Verifizierung über den Playwright MCP-Protokoll-Overhead etwa 30.000 Token pro Sitzung verbrauchte, wobei jeder browser_navigate + browser_snapshot-Aufruf etwa 1.500 Token in JSON-Schema-Framing kostete.

Die Lösung ist ein persistenter Headless-Chromium-Daemon, mit dem Sie über Bash-Befehle interagieren. Er verwendet dieselbe Playwright-ARIA-Snapshot-Technologie im Hintergrund, erreicht aber etwa 50-100 Token pro Aufruf statt etwa 1.500.

Befehle und Verwendung

Verfügbare Befehle umfassen:

  • browser-cli goto https://example.com - Zu URL navigieren
  • browser-cli snapshot -i - ARIA-Baum mit @e-Referenzen
  • browser-cli click @e3 - Per Referenz klicken
  • browser-cli fill @e5 "hello" - Eingabefeld ausfüllen
  • browser-cli css @e3 font-size - Berechneten CSS-Wert abrufen
  • browser-cli inspect @e3 - Vollständiges Box-Modell + Stile
  • browser-cli screenshot /tmp/page.png - Screenshot
  • browser-cli snapshot -D - Diff: Was sich seit dem letzten Snapshot geändert hat
  • browser-cli responsive /tmp - Screenshots für Mobilgerät/Tablet/Desktop

Der Server startet automatisch beim ersten Aufruf (~3s), danach dauern nachfolgende Aufrufe etwa 100-200ms. Er bleibt 30 Minuten aktiv und bewahrt Cookies, Tabs und Zustand zwischen Befehlen.

Token-Einsparungen

Token-Vergleich:

  • Playwright MCP: ~1.500 Token pro Aufruf, ~30.000 Token für 20 Aufrufe
  • Browser CLI: ~75 Token pro Aufruf, ~1.500 Token für 20 Aufrufe

Das sind 95 % Einsparungen bei der Browser-Verifizierung. Für automatisierte Pipelines, die mehrere Aufgaben pro Sitzung durchführen, potenziert sich dies schnell.

Ad

Funktionen über Playwright MCP hinaus

  • CSS-Inspektion - css @e3 padding gibt berechnete Werte zurück. inspect @e3 liefert vollständiges Box-Modell + 16 Schlüsselstile als JSON.
  • Live-Style-Mutation - style @e3 color red mit style --undo. CSS debuggen, ohne Quellcode zu berühren.
  • Snapshot-Diffing - snapshot -D vergleicht Vorher/Nachher-ARIA-Bäume.
  • Responsive-Voreinstellungen - responsive /tmp macht Mobil-, Tablet- und Desktop-Screenshots in einem Befehl.
  • Auth-Profile - handoff öffnet sichtbares Chrome für manuelle SSO/MFA-Anmeldung, resume kehrt zu Headless zurück, auth-save admin verschlüsselt die Sitzung (AES-256). Nächstes Mal: goto-auth https://app.com/dashboard --profile admin — keine Anmeldung nötig.
  • Befehls-Batching - chain [["goto","url"],["snapshot","-i"],["console"]] führt mehrere Befehle in einem Aufruf aus.

Technische Implementierung

Architektur: KI-Agent → Bash → CLI-Client (bin/browse.mjs) → HTTP POST (localhost) → Server (src/server.mjs) → Playwright API → Chromium (headless).

Reines Node.js. Playwright ist die einzige Abhängigkeit. Kein Bun, kein Rust, kein MCP-Overhead.

Claude Code Integration

Global installieren:

npm install -g @tuandm/browser-cli

Zu .claude/settings.json hinzufügen:

{
  "permissions": {
    "allow": ["Bash(browser-cli*)"]
  }
}

Eine Regel unter .claude/rules/browser-cli.md hinzufügen, die Claude anweist, Browser CLI statt Playwright MCP zu verwenden. Der Ersteller führte 5 Evaluierungsszenarien durch und Claude wählte jedes Mal den richtigen Befehl, wenn die Regel geladen war.

Es wird auch als Claude Code-Plugin (plugin.json enthalten) für zukünftige Marktplatz-Verteilung geliefert.

Inspiration und Technologie

Inspiriert von gstack von Garry Tan, das den persistenten Chromium-CLI-Ansatz für KI-Agenten vorantrieb. Die Kern-Erkenntnis war, dass Bash-Befehle für Browser-Automatisierung dramatisch token-effizienter sind als MCP. Die zugrundeliegende Technologie ist Playwright von Microsoft.

📖 Quelle lesen: r/ClaudeAI

Ad

👀 Siehe auch

Claude mit einem lokalen LLM als Assistent über MCP auf dem Mac ausstatten
Werkzeuge

Claude mit einem lokalen LLM als Assistent über MCP auf dem Mac ausstatten

Ein Entwickler verbindet Claude mit einem lokalen Qwen 2.5 Coder 14B über Ollama und MCP und schafft so einen kostenlosen Assistenten für Aufgaben wie Textverarbeitung und den Umgang mit großen Dateien.

OpenClawRadar
MCP-Suchtserver mit Feedback-gesteuertem Ranking für Claude Desktop
Werkzeuge

MCP-Suchtserver mit Feedback-gesteuertem Ranking für Claude Desktop

Ein von der Community erstellter MCP-Suchserver für Claude Desktop führt die Suchmaschinen Exa und Tavily parallel aus, ohne dass API-Schlüssel erforderlich sind. Nach der Nutzung eines Ergebnisses melden Benutzer über ein Ergebnis-Tool, ob es funktioniert hat. Diese Rückmeldung fließt in das Ranking ein, um URLs zu priorisieren, die Agenten zum Erfolg verhelfen.

OpenClawRadar
Ouroboros fügt PM-Interview-Modus für Claude Code hinzu, um die Spezifikationslücke zu schließen
Werkzeuge

Ouroboros fügt PM-Interview-Modus für Claude Code hinzu, um die Spezifikationslücke zu schließen

Ouroboros verfügt jetzt über einen PM-Modus, der vor der Übergabe an Claude Code ein geführtes Interview durchführt und Fragen stellt wie: Welches Problem wird gelöst, für wen ist es gedacht und welche Einschränkungen sind wichtig. Das Ergebnis ist ein PRD/PM-Dokument mit Ziel, User Stories, Einschränkungen, Erfolgskriterien, Annahmen und zurückgestellten Punkten.

OpenClawRadar
LM Studio-Erweiterungen ermöglichen Web-Bildanalyse für vision-fähige LLMs.
Werkzeuge

LM Studio-Erweiterungen ermöglichen Web-Bildanalyse für vision-fähige LLMs.

Ein Entwickler hat Plugins für LM Studio erstellt, die visionfähigen LLMs ermöglichen, Bilder aus dem Web abzurufen und zu analysieren, mit automatischer Bildverarbeitung und Tool-Verkettung. Die Plugins funktionieren mit Modellen wie Qwen 3.5 9b/27b und umfassen aktualisierte Duck-Duck-Go- und Website-Besuch-Funktionalität.

OpenClawRadar