Browser automatisieren: KI-Subroutinen ohne Token-Kosten

Was KI-Subroutinen leisten

KI-Subroutinen zeichnen Browser-Aufgaben einmal auf und speichern sie als aufrufbare Tools, die ohne Token-Kosten, ohne LLM-Inferenzverzögerung und mit 100% Determinismus abgespielt werden. Das generierte Skript wird innerhalb der Webseite selbst ausgeführt, nicht über einen Proxy, einen Headless-Worker oder eine Out-of-Process-Lösung.

Wichtige Architekturentscheidung

Das Skript wird im Ausführungskontext der Webseite ausgeführt, was bedeutet, dass alle Authentifizierungsdaten, CSRF-Tokens, TLS-Sitzungen und signierten Header automatisch zu Anfragen hinzugefügt werden. Es ist keine Zertifikatsinstallation, TLS-Fingerprint-Modifikation oder separate Wartung einer Authentifizierungs-Stack erforderlich.

Aufzeichnungsmechanismus

Während der Aufzeichnung fängt die Erweiterung Netzwerkanfragen mithilfe von zwei Ebenen ab:

MAIN-World-Fetch/XHR-Patch, installiert bevor irgendein Seiten-Skript läuft
Chromes webRequest-API als korrelierter Fallback für CORS- und Service-Worker-Pfade

Anfragekörper einschließlich FormData, Blob und Rohbytes werden erfasst, nicht nur JSON.

Verarbeitung der Netzwerkerfassung

Das System bewertet und reduziert etwa 300 Anfragen auf etwa 5 basierend auf mehreren Signalen:

First-Party vs. Third-Party-Herkunft (+20 / −15)
Bekannte Telemetrie-Hosts (Sentry, Segment, Hotjar, RUM): −80
Zeitliche Korrelation zu DOM-Ereignissen (+28 innerhalb von 800ms, +16 innerhalb von 2,5s)
Methode und Payload-Form (mutierende POST/PUT/PATCH/DELETE: +35; GET: +5; mit Anfragekörper: +8)
Antwortqualität (2xx: +12; 4xx+: −25; nicht-leerer Körper: +4)
Flüchtige Operations-IDs (−18) für GraphQL queryId, doc_id, operationHash

Flüchtige GraphQL-Operations-IDs lösen einen DOM-only-Fallback aus, bevor sie beim nächsten Durchlauf stillschweigend fehlschlagen.

Struktur des generierten Codes

Der generierte Code kombiniert Netzwerkaufrufe mit DOM-Aktionen (Klick, Eingabe, Finden) in derselben Funktion über einen rtrvr.*-Helper-Namespace. Die fünf bestbewerteten Anfragen plus DOM-Interaktionen werden in einen 12.000-Zeichen-Kontext für den Generator gerendert.

Nutzungsmuster

Richten Sie einen KI-Agenten auf eine Tabelle mit 500 Zeilen aus, und mit nur einem LLM-Aufruf werden Parameter zugewiesen und 500 Subroutinen gestartet.

Wichtige Anwendungsfälle

Zeichnen Sie das Senden einer Instagram-DM auf und haben Sie dann eine wiederverwendbare Routine, um DMs ohne Token-Kosten zu senden
Erstellen Sie eine Routine, um die neuesten Produkte in einem Site-Katalog abzurufen, und rufen Sie sie auf, um Tausende von Produkten über direkte GraphQL-Abfragen zu erhalten
Richten Sie eine Routine ein, um EHR-Formulare basierend auf Parametern auszufüllen, wobei die KI Parameter aus dem aktuellen Seitenkontext ableitet
Nutzen Sie Routinen täglich wieder, um ausgehende Nachrichten auf LinkedIn/Slack/Gmail über einen MCP-Server mit einem CRM zu synchronisieren

Warum das wichtig ist

Das grundlegende Problem mit Browser-Agenten für wiederkehrende Aufgaben ist, dass der Durchlauf durch den Inferenz-Loop unnötig ist. Einmaliges Aufzeichnen und das Generieren eines Skripts durch das LLM, das alle möglichen Interaktionsmethoden nutzt (direkte API-Aufrufe, DOM-Interaktionen, Third-Party-Tools/APIs/MCP-Server), bietet deterministische, kosteneffektive Automatisierung.

📖 Read the full source: HN LLM Tools