KI-Unterprogramme: Deterministische Browser-Automatisierung ohne Token-Kosten

✍️ OpenClawRadar📅 Veröffentlicht: 19. April 2026🔗 Source
KI-Unterprogramme: Deterministische Browser-Automatisierung ohne Token-Kosten
Ad

Was KI-Subroutinen leisten

KI-Subroutinen zeichnen Browser-Aufgaben einmal auf und speichern sie als aufrufbare Tools, die ohne Token-Kosten, ohne LLM-Inferenzverzögerung und mit 100% Determinismus abgespielt werden. Das generierte Skript wird innerhalb der Webseite selbst ausgeführt, nicht über einen Proxy, einen Headless-Worker oder eine Out-of-Process-Lösung.

Wichtige Architekturentscheidung

Das Skript wird im Ausführungskontext der Webseite ausgeführt, was bedeutet, dass alle Authentifizierungsdaten, CSRF-Tokens, TLS-Sitzungen und signierten Header automatisch zu Anfragen hinzugefügt werden. Es ist keine Zertifikatsinstallation, TLS-Fingerprint-Modifikation oder separate Wartung einer Authentifizierungs-Stack erforderlich.

Aufzeichnungsmechanismus

Während der Aufzeichnung fängt die Erweiterung Netzwerkanfragen mithilfe von zwei Ebenen ab:

  • MAIN-World-Fetch/XHR-Patch, installiert bevor irgendein Seiten-Skript läuft
  • Chromes webRequest-API als korrelierter Fallback für CORS- und Service-Worker-Pfade

Anfragekörper einschließlich FormData, Blob und Rohbytes werden erfasst, nicht nur JSON.

Verarbeitung der Netzwerkerfassung

Das System bewertet und reduziert etwa 300 Anfragen auf etwa 5 basierend auf mehreren Signalen:

  • First-Party vs. Third-Party-Herkunft (+20 / −15)
  • Bekannte Telemetrie-Hosts (Sentry, Segment, Hotjar, RUM): −80
  • Zeitliche Korrelation zu DOM-Ereignissen (+28 innerhalb von 800ms, +16 innerhalb von 2,5s)
  • Methode und Payload-Form (mutierende POST/PUT/PATCH/DELETE: +35; GET: +5; mit Anfragekörper: +8)
  • Antwortqualität (2xx: +12; 4xx+: −25; nicht-leerer Körper: +4)
  • Flüchtige Operations-IDs (−18) für GraphQL queryId, doc_id, operationHash

Flüchtige GraphQL-Operations-IDs lösen einen DOM-only-Fallback aus, bevor sie beim nächsten Durchlauf stillschweigend fehlschlagen.

Ad

Struktur des generierten Codes

Der generierte Code kombiniert Netzwerkaufrufe mit DOM-Aktionen (Klick, Eingabe, Finden) in derselben Funktion über einen rtrvr.*-Helper-Namespace. Die fünf bestbewerteten Anfragen plus DOM-Interaktionen werden in einen 12.000-Zeichen-Kontext für den Generator gerendert.

Nutzungsmuster

Richten Sie einen KI-Agenten auf eine Tabelle mit 500 Zeilen aus, und mit nur einem LLM-Aufruf werden Parameter zugewiesen und 500 Subroutinen gestartet.

Wichtige Anwendungsfälle

  • Zeichnen Sie das Senden einer Instagram-DM auf und haben Sie dann eine wiederverwendbare Routine, um DMs ohne Token-Kosten zu senden
  • Erstellen Sie eine Routine, um die neuesten Produkte in einem Site-Katalog abzurufen, und rufen Sie sie auf, um Tausende von Produkten über direkte GraphQL-Abfragen zu erhalten
  • Richten Sie eine Routine ein, um EHR-Formulare basierend auf Parametern auszufüllen, wobei die KI Parameter aus dem aktuellen Seitenkontext ableitet
  • Nutzen Sie Routinen täglich wieder, um ausgehende Nachrichten auf LinkedIn/Slack/Gmail über einen MCP-Server mit einem CRM zu synchronisieren

Warum das wichtig ist

Das grundlegende Problem mit Browser-Agenten für wiederkehrende Aufgaben ist, dass der Durchlauf durch den Inferenz-Loop unnötig ist. Einmaliges Aufzeichnen und das Generieren eines Skripts durch das LLM, das alle möglichen Interaktionsmethoden nutzt (direkte API-Aufrufe, DOM-Interaktionen, Third-Party-Tools/APIs/MCP-Server), bietet deterministische, kosteneffektive Automatisierung.

📖 Read the full source: HN LLM Tools

Ad

👀 Siehe auch

Via Open Source Universal Integration Layer verbindet KI-Tools mit einem gemeinsamen Kontextbus
Werkzeuge

Via Open Source Universal Integration Layer verbindet KI-Tools mit einem gemeinsamen Kontextbus

Via ist eine quelloffene universelle Integrationsschicht, die Claude, Cursor, Windsurf, ChatGPT, LangChain und andere KI-Tools mit einem gemeinsamen Kontext-, Aufgaben- und Speicherbus verbindet, sodass Arbeit den Benutzern über Tools, Sitzungen und Maschinen hinweg folgen kann.

OpenClawRadar
MemAware-Benchmark testet KI-Gedächtnis über die Stichwortsuche hinaus
Werkzeuge

MemAware-Benchmark testet KI-Gedächtnis über die Stichwortsuche hinaus

MemAware ist ein Benchmark mit 900 Fragen über 3 Schwierigkeitsgrade, der testet, ob KI-Assistenten mit Gedächtnis relevante Kontexte abrufen können, wenn Anfragen keine Hinweise darauf geben. Ergebnisse zeigen: BM25-Suche erzielte 2,8 % gegenüber 0,8 % ohne Gedächtnis, während Vektorsuche bei domänenübergreifenden Verbindungen auf 0,7 % sinkt.

OpenClawRadar
ClawTalk iOS-App ermöglicht Sprach-Chat mit selbst-gehosteten OpenClaw-KI-Agenten
Werkzeuge

ClawTalk iOS-App ermöglicht Sprach-Chat mit selbst-gehosteten OpenClaw-KI-Agenten

ClawTalk ist eine native iOS-App, die Push-to-Talk-Sprachchat für selbst gehostete OpenClaw-LLM-Setups bietet. Sie verfügt über On-Device-Spracherkennung mit WhisperKit, Echtzeit-Streaming-Antworten mit Markdown-Rendering und unterstützt mehrere TTS-Optionen, darunter ElevenLabs, OpenAI und Apples eingebaute Stimmen.

OpenClawRadar
Lokale semantische Suche für KI-Gespräche mit fastembed und LanceDB
Werkzeuge

Lokale semantische Suche für KI-Gespräche mit fastembed und LanceDB

Ein Entwickler hat 368K KI-Konversationsnachrichten lokal mit fastembed für CPU-basierte Embeddings und LanceDB als serverlosen Vektorspeicher indiziert und dabei eine p50-Suchlatenz von 12ms ohne API-Schlüssel erreicht.

OpenClawRadar