Libretto: Deterministische Browser-Automatisierung für KI-Agenten

Libretto ist ein Toolkit zum Erstellen robuster Web-Integrationen, das Ihrem Coding-Agenten einen Live-Browser und eine token-effiziente CLI bietet. Es wechselt von Laufzeit-KI-Agenten, die als Blackboxen arbeiten, zu "Entwicklungszeit-KI", bei der Skripte im Voraus als echter Code generiert werden, den Sie lesen, ändern, versionieren und debuggen können.

Wichtige Funktionen und Ansatz

Libretto verfolgt einen hybriden Ansatz, der Playwright-UI-Automatisierung mit direkten Netzwerk-/API-Anfragen innerhalb der Browser-Sitzung kombiniert, um bessere Zuverlässigkeit und Umgehung von Bot-Erkennung zu erreichen. Dies behebt Einschränkungen von Laufzeit-KI-Tools, die auf benutzerdefiniertes DOM-Parsing angewiesen sind, was bei älteren oder komplexen Websites wie Gesundheitssystemen unzuverlässig sein kann.

Das Tool wurde nach einem Jahr der Wartung von Browser-Automatisierungen für EHR- und Zahlungsportal-Integrationen in einem Gesundheits-Startup entwickelt, wo das Debuggen fehlgeschlagener Automatisierungen zeitaufwändig war. Es behebt vier Hauptprobleme mit Laufzeit-KI-Tools:

Abhängigkeit von benutzerdefiniertem DOM-Parsing, das bei komplexen Websites unzuverlässig ist
Hohe Kosten aufgrund vieler KI-Aufrufe und Unfähigkeit, Aktionen zuverlässig zu cachen
Fehlende Interpretierbarkeit zur Laufzeit
Begrenzte Hilfe bei der Generierung neuer Automatisierungen oder beim Debuggen von Fehlern

Praktische Verwendung

Die Installation erfolgt über npm: npm install libretto. Die Erstinstallation erfordert: npx libretto setup, was den Skill installiert, Chromium herunterlädt und das Standard-Snapshot-Modell festlegt. Sie können die Arbeitsbereichsbereitschaft mit npx libretto status überprüfen und das Snapshot-Analysemodell manuell mit npx libretto ai configure <openai | anthropic | gemini | vertex> ändern.

Libretto ist als Skill über Ihren Coding-Agenten nutzbar, mit Beispielaufforderungen wie:

Einmalige Skriptgenerierung: "Verwenden Sie den Libretto-Skill. Gehen Sie auf LinkedIn und scrapen Sie die ersten 10 Beiträge nach Inhalt, wer sie gepostet hat, die Anzahl der Reaktionen, die ersten 25 Kommentare und die ersten 25 Reposts."
Interaktive Skripterstellung: "Ich zeige Ihnen einen Workflow im eclinicalworks EHR, um die primäre Versicherungs-ID eines Patienten zu erhalten. Verwenden Sie den Libretto-Skill, um daraus ein Playwright-Skript zu machen, das Patientennamen und Geburtsdatum als Eingabe nimmt, um die Versicherungs-ID zurückzugeben."
Browser-Automatisierung in Netzwerkanfragen umwandeln: "Wir haben ein Browser-Skript unter ./integration.ts, das automatisiert auf Hacker News geht und die ersten 10 Beiträge abruft. Konvertieren Sie es stattdessen in direkte Netzwerkskripte."
Defekte Integrationen reparieren: "Wir haben ein Browser-Skript unter ./integration.ts, das auf Availity gehen und eine Berechtigungsprüfung für einen Patienten durchführen soll. Aber ich erhalte einen fehlerhaften Selektor-Fehler, wenn ich es ausführe. Reparieren Sie es."

Die CLI kann auch direkt mit Befehlen wie npx libretto open <url> verwendet werden, um Sitzungen zu starten. Alle Befehle akzeptieren --session <name>, um bestimmte Sitzungen anzusprechen.

Zusätzliche Funktionen umfassen das Aufzeichnen manueller Benutzeraktionen, um Agenten bei der Generierung und Aktualisierung von Skripten zu helfen, schrittweises Debugging, optionalen Nur-Lese-Modus, um zu verhindern, dass Agenten versehentlich Daten übermitteln oder ändern, und das Generieren von Code, der bestehenden Abstraktionen und Konventionen in Ihrem Coding-Repository folgt.

📖 Read the full source: HN AI Agents

Libretto: Deterministische Browser-Automatisierungserzeugung für KI-Codierungsagenten

Wichtige Funktionen und Ansatz

Praktische Verwendung

👀 Siehe auch

OpenGauge: Open-Source-Tool zur lokalen Verfolgung von LLM-Agent-Kosten

Codex Chrome-Erweiterung fügt Hintergrund-Browserautomatisierung über Tabs hinzu

Banker erstellt Kredit-Due-Diligence-Tool mit nur 31 KI-Prompts unter Verwendung von Claude

ToolLoop: Open-Source-Framework für Claude-ähnliche Tools mit jedem LLM