KI-Browser-Tools: 2,6-fache Token-Kosten bei 100% Genauigkeit

Benchmark-Ergebnisse: Gleiche Genauigkeit, unterschiedliche Kosten

Ein Benchmark testete 4 CLI-Browser-Automatisierungstools mit demselben Modell (Claude Sonnet 4.6) bei 6 realen Aufgaben auf Live-Websites. Alle Tools erzielten 100% Genauigkeit über 18 Aufgabenausführungen, aber die Token-Nutzung variierte dramatisch:

openbrowser-ai: 36.010 Tokens / 84,8s / 15,3 Tool-Aufrufe
browser-use: 77.123 Tokens / 106,0s / 20,7 Tool-Aufrufe
playwright-cli (Microsoft): 94.130 Tokens / 118,3s / 25,7 Tool-Aufrufe
agent-browser (Vercel): 90.107 Tokens / 99,0s / 25,0 Tool-Aufrufe

Openbrowser-ai verwendete 2,1- bis 2,6-mal weniger Tokens als die anderen Tools. Der Benchmark ergab, dass die Anzahl der Tool-Aufrufe der stärkste Prädiktor für die Token-Kosten ist, da jeder Aufruf das LLM zwingt, den gesamten Konversationsverlauf erneut zu verarbeiten.

Wie sich die Tools in der Implementierung unterscheiden

Alle vier Tools halten persistente Browsersitzungen über Hintergrund-Daemons aufrecht, können JavaScript serverseitig ausführen und nur das Ergebnis zurückgeben, arbeiten daran, den Seitenstatus kompakt zu halten, und unterstützen eine Form von Code-Ausführung.

browser-use bietet individuelle CLI-Befehle: open, click, input, scroll, state, eval. Das LLM gibt einen Befehl pro Tool-Aufruf aus. eval führt JavaScript im Seitenkontext aus. Der Seitenstatus ist ein erweiterter DOM-Baum mit [N]-Indizes bei etwa 880 Zeichen pro Seite. Es kommuniziert mit Chrome über direkten CDP durch ihre cdp-use-Bibliothek.

agent-browser folgt einem ähnlichen Muster: open, click, fill, snapshot, eval. Es ist ein natives Rust-Binary, das direkt über CDP mit Chrome kommuniziert. Der Seitenstatus ist ein Barrierefreiheitsbaum mit u/eN-Referenzen. Das Flag -i erzeugt eine kompakte, nur interaktive Ausgabe von etwa 590 Zeichen. Befehle können mit && verkettet werden, aber jeder ist immer noch eine separate Daemon-Anfrage.

playwright-cli bietet individuelle Befehle plus run-code, das beliebiges Playwright-JavaScript mit vollem API-Zugriff akzeptiert. Das LLM kann Code wie run-code "async page => { await page.goto('url'); await page.click('.btn'); return await page.title(); }" schreiben und mehrere Operationen in einem Aufruf ausführen. Der Seitenstatus ist ein Barrierefreiheitsbaum, der in .yml-Dateien bei etwa 1.420 Zeichen gespeichert wird, mit inkrementellen Snapshots, die nach dem ersten Lesen nur Unterschiede senden.

openbrowser-ai hat überhaupt keine individuellen Befehle. Die einzige Schnittstelle ist Python-Code über -c:

openbrowser-ai -c 'await navigate("https://en.wikipedia.org/wiki/Python") info = await evaluate("document.querySelector('.infobox')?.innerText") print(info)'

navigate, click, input_text, evaluate, scroll sind asynchrone Python-Funktionen in einem persistenten Namensraum. Der Seitenstatus ist DOM mit [i_N]-Indizes bei etwa 450 Zeichen. Variablen bleiben über Aufrufe hinweg erhalten wie in einem Jupyter-Notebook.

Der Benchmark beobachtete, dass das LLM mit OpenBrowser weniger Tool-Aufrufe machte (15,3 vs. 20–26 bei anderen Tools), was die Autoren auf die rein Code-basierte Schnittstelle zurückführen, die natürlicherweise das Bündeln von Operationen fördert.

📖 Read the full source: r/ClaudeAI

Benchmark zeigt: KI-Browser-Automatisierungstools variieren um das 2,6-fache bei den Token-Kosten trotz identischer Genauigkeit

Benchmark-Ergebnisse: Gleiche Genauigkeit, unterschiedliche Kosten

Wie sich die Tools in der Implementierung unterscheiden

👀 Siehe auch

V6rge AI Suite Update fügt NVIDIA GPU-Unterstützung und Beta-Coding-Agent hinzu

Druckbare Claude-Code-Cheat-Sheet mit wöchentlichen automatischen Updates

Quiver: Eine GUI zur Verwaltung und Synchronisierung von Claude Code Skills

Specsmaxxing: KI-Psychose mit YAML-Spezifikationen und ACAI bekämpfen