Benchmark zeigt: KI-Browser-Automatisierungstools variieren um das 2,6-fache bei den Token-Kosten trotz identischer Genauigkeit

Benchmark-Ergebnisse: Gleiche Genauigkeit, unterschiedliche Kosten
Ein Benchmark testete 4 CLI-Browser-Automatisierungstools mit demselben Modell (Claude Sonnet 4.6) bei 6 realen Aufgaben auf Live-Websites. Alle Tools erzielten 100% Genauigkeit über 18 Aufgabenausführungen, aber die Token-Nutzung variierte dramatisch:
- openbrowser-ai: 36.010 Tokens / 84,8s / 15,3 Tool-Aufrufe
- browser-use: 77.123 Tokens / 106,0s / 20,7 Tool-Aufrufe
- playwright-cli (Microsoft): 94.130 Tokens / 118,3s / 25,7 Tool-Aufrufe
- agent-browser (Vercel): 90.107 Tokens / 99,0s / 25,0 Tool-Aufrufe
Openbrowser-ai verwendete 2,1- bis 2,6-mal weniger Tokens als die anderen Tools. Der Benchmark ergab, dass die Anzahl der Tool-Aufrufe der stärkste Prädiktor für die Token-Kosten ist, da jeder Aufruf das LLM zwingt, den gesamten Konversationsverlauf erneut zu verarbeiten.
Wie sich die Tools in der Implementierung unterscheiden
Alle vier Tools halten persistente Browsersitzungen über Hintergrund-Daemons aufrecht, können JavaScript serverseitig ausführen und nur das Ergebnis zurückgeben, arbeiten daran, den Seitenstatus kompakt zu halten, und unterstützen eine Form von Code-Ausführung.
browser-use bietet individuelle CLI-Befehle: open, click, input, scroll, state, eval. Das LLM gibt einen Befehl pro Tool-Aufruf aus. eval führt JavaScript im Seitenkontext aus. Der Seitenstatus ist ein erweiterter DOM-Baum mit [N]-Indizes bei etwa 880 Zeichen pro Seite. Es kommuniziert mit Chrome über direkten CDP durch ihre cdp-use-Bibliothek.
agent-browser folgt einem ähnlichen Muster: open, click, fill, snapshot, eval. Es ist ein natives Rust-Binary, das direkt über CDP mit Chrome kommuniziert. Der Seitenstatus ist ein Barrierefreiheitsbaum mit u/eN-Referenzen. Das Flag -i erzeugt eine kompakte, nur interaktive Ausgabe von etwa 590 Zeichen. Befehle können mit && verkettet werden, aber jeder ist immer noch eine separate Daemon-Anfrage.
playwright-cli bietet individuelle Befehle plus run-code, das beliebiges Playwright-JavaScript mit vollem API-Zugriff akzeptiert. Das LLM kann Code wie run-code "async page => { await page.goto('url'); await page.click('.btn'); return await page.title(); }" schreiben und mehrere Operationen in einem Aufruf ausführen. Der Seitenstatus ist ein Barrierefreiheitsbaum, der in .yml-Dateien bei etwa 1.420 Zeichen gespeichert wird, mit inkrementellen Snapshots, die nach dem ersten Lesen nur Unterschiede senden.
openbrowser-ai hat überhaupt keine individuellen Befehle. Die einzige Schnittstelle ist Python-Code über -c:
openbrowser-ai -c 'await navigate("https://en.wikipedia.org/wiki/Python") info = await evaluate("document.querySelector('.infobox')?.innerText") print(info)'navigate, click, input_text, evaluate, scroll sind asynchrone Python-Funktionen in einem persistenten Namensraum. Der Seitenstatus ist DOM mit [i_N]-Indizes bei etwa 450 Zeichen. Variablen bleiben über Aufrufe hinweg erhalten wie in einem Jupyter-Notebook.
Der Benchmark beobachtete, dass das LLM mit OpenBrowser weniger Tool-Aufrufe machte (15,3 vs. 20–26 bei anderen Tools), was die Autoren auf die rein Code-basierte Schnittstelle zurückführen, die natürlicherweise das Bündeln von Operationen fördert.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

V6rge AI Suite Update fügt NVIDIA GPU-Unterstützung und Beta-Coding-Agent hinzu
Die V6rge AI Suite hat ein Update veröffentlicht, das GPU-Erkennungsprobleme behebt, volle NVIDIA-GPU-Unterstützung für bessere Leistung hinzufügt und einen neuen Beta-Coding-Agent einführt, der Code direkt in der App generiert und unterstützt.

Druckbare Claude-Code-Cheat-Sheet mit wöchentlichen automatischen Updates
Ein Entwickler hat eine einseitige, druckbare Spickzettel für Claude Code erstellt, der sich wöchentlich automatisch aktualisiert. Der Spickzettel wurde mithilfe von Claude selbst erstellt und deckt Tastenkombinationen, Slash-Befehle, Workflows, das Skills-System, Memory/CLAUDE.md, MCP-Einrichtung, CLI-Flags und Konfigurationsdateien ab. Die HTML-Datei wird wöchentlich über einen Cron-Job aktualisiert, wobei neue Funktionen als 'NEU' gekennzeichnet werden.

Quiver: Eine GUI zur Verwaltung und Synchronisierung von Claude Code Skills
Quiver ist ein kostenloses, quelloffenes GUI-Tool, das eine Weboberfläche zur Verwaltung von Claude Code Skills bietet. Es ermöglicht Benutzern, lokale Skills und Marketplace-Plugins zu durchsuchen, SKILL.md-Dateien zu bearbeiten, über Git zu synchronisieren und Skills ohne Terminal zu installieren.

Specsmaxxing: KI-Psychose mit YAML-Spezifikationen und ACAI bekämpfen
Acai.sh stellt Specsmaxxing vor: eine Methode, um dem Kontextverlust von KI-Agenten entgegenzuwirken, indem Anforderungen in YAML geschrieben und nummerierte Akzeptanzkriterien für KI (ACAI) verwendet werden, auf die Agenten im Code verweisen.