Libretto: Deterministische Browser-Automatisierungserzeugung für KI-Codierungsagenten

Libretto ist ein Toolkit zum Erstellen robuster Web-Integrationen, das Ihrem Coding-Agenten einen Live-Browser und eine token-effiziente CLI bietet. Es wechselt von Laufzeit-KI-Agenten, die als Blackboxen arbeiten, zu "Entwicklungszeit-KI", bei der Skripte im Voraus als echter Code generiert werden, den Sie lesen, ändern, versionieren und debuggen können.
Wichtige Funktionen und Ansatz
Libretto verfolgt einen hybriden Ansatz, der Playwright-UI-Automatisierung mit direkten Netzwerk-/API-Anfragen innerhalb der Browser-Sitzung kombiniert, um bessere Zuverlässigkeit und Umgehung von Bot-Erkennung zu erreichen. Dies behebt Einschränkungen von Laufzeit-KI-Tools, die auf benutzerdefiniertes DOM-Parsing angewiesen sind, was bei älteren oder komplexen Websites wie Gesundheitssystemen unzuverlässig sein kann.
Das Tool wurde nach einem Jahr der Wartung von Browser-Automatisierungen für EHR- und Zahlungsportal-Integrationen in einem Gesundheits-Startup entwickelt, wo das Debuggen fehlgeschlagener Automatisierungen zeitaufwändig war. Es behebt vier Hauptprobleme mit Laufzeit-KI-Tools:
- Abhängigkeit von benutzerdefiniertem DOM-Parsing, das bei komplexen Websites unzuverlässig ist
- Hohe Kosten aufgrund vieler KI-Aufrufe und Unfähigkeit, Aktionen zuverlässig zu cachen
- Fehlende Interpretierbarkeit zur Laufzeit
- Begrenzte Hilfe bei der Generierung neuer Automatisierungen oder beim Debuggen von Fehlern
Praktische Verwendung
Die Installation erfolgt über npm: npm install libretto. Die Erstinstallation erfordert: npx libretto setup, was den Skill installiert, Chromium herunterlädt und das Standard-Snapshot-Modell festlegt. Sie können die Arbeitsbereichsbereitschaft mit npx libretto status überprüfen und das Snapshot-Analysemodell manuell mit npx libretto ai configure <openai | anthropic | gemini | vertex> ändern.
Libretto ist als Skill über Ihren Coding-Agenten nutzbar, mit Beispielaufforderungen wie:
- Einmalige Skriptgenerierung: "Verwenden Sie den Libretto-Skill. Gehen Sie auf LinkedIn und scrapen Sie die ersten 10 Beiträge nach Inhalt, wer sie gepostet hat, die Anzahl der Reaktionen, die ersten 25 Kommentare und die ersten 25 Reposts."
- Interaktive Skripterstellung: "Ich zeige Ihnen einen Workflow im eclinicalworks EHR, um die primäre Versicherungs-ID eines Patienten zu erhalten. Verwenden Sie den Libretto-Skill, um daraus ein Playwright-Skript zu machen, das Patientennamen und Geburtsdatum als Eingabe nimmt, um die Versicherungs-ID zurückzugeben."
- Browser-Automatisierung in Netzwerkanfragen umwandeln: "Wir haben ein Browser-Skript unter ./integration.ts, das automatisiert auf Hacker News geht und die ersten 10 Beiträge abruft. Konvertieren Sie es stattdessen in direkte Netzwerkskripte."
- Defekte Integrationen reparieren: "Wir haben ein Browser-Skript unter ./integration.ts, das auf Availity gehen und eine Berechtigungsprüfung für einen Patienten durchführen soll. Aber ich erhalte einen fehlerhaften Selektor-Fehler, wenn ich es ausführe. Reparieren Sie es."
Die CLI kann auch direkt mit Befehlen wie npx libretto open <url> verwendet werden, um Sitzungen zu starten. Alle Befehle akzeptieren --session <name>, um bestimmte Sitzungen anzusprechen.
Zusätzliche Funktionen umfassen das Aufzeichnen manueller Benutzeraktionen, um Agenten bei der Generierung und Aktualisierung von Skripten zu helfen, schrittweises Debugging, optionalen Nur-Lese-Modus, um zu verhindern, dass Agenten versehentlich Daten übermitteln oder ändern, und das Generieren von Code, der bestehenden Abstraktionen und Konventionen in Ihrem Coding-Repository folgt.
📖 Read the full source: HN AI Agents
👀 Siehe auch

Sitefire automatisiert die KI-Suchoptimierung mit Content Agents.
Die Plattform von Sitefire überwacht KI-Suchergebnisse, analysiert, welche Seiten zitiert werden, und nutzt Content-Agenten, um Verbesserungen zu entwerfen oder neue Seiten zu erstellen, die direkt in das CMS der Kunden übertragen werden. Ein Kunde verzeichnete einen Anstieg der KI-Bot-Anfragen von ~200/Tag auf ~570/Tag innerhalb von zehn Tagen.

OpenClaws QMD-Speichersuche-Schnellpfad hatte stille Fehler
Die integrierte Speichersuche von OpenClaw verwendet einfache Schlüsselwortabgleiche, aber Benutzer können auf QMD umschalten, um semantische Suche über Workspace-Markdown-Dateien durchzuführen. Ein schneller Pfad durch MCPorter war durch drei Fehler unterbrochen, die jeden Aufruf zum stillen Scheitern brachten und auf langsamere CLI-Ausführung zurückfielen.

Benchmark-Ergebnisse: 6 kostengünstige Modelle im Vergleich zu Claude Sonnet 4.6 für OpenClaw-Orchestrierung
Ein Entwickler testete sechs günstigere KI-Modelle gegen Claude Sonnet 4.6 als Haupt-Orchestrator für ein OpenClaw-Setup. Nur o4-mini erreichte Sonnets perfekte Punktzahl, während andere bei kritischen Beurteilungsaufgaben wie Dateiinspektion und Delegierung versagten.

Observer: Offline-Agenten für Monitoring und Logging – Nutzen Sie lokale LLMs auf Ihrem Telefon
Observer ist eine Open-Source-iOS-App, die multimodale LLMs lokal auf dem Telefon ausführt, um Ereignisse zu überwachen, Daten zu protokollieren und Discord-Benachrichtigungen auszulösen – alles offline und kostenlos.