KI-Unterprogramme: Deterministische Browser-Automatisierung ohne Token-Kosten

Was KI-Subroutinen leisten
KI-Subroutinen zeichnen Browser-Aufgaben einmal auf und speichern sie als aufrufbare Tools, die ohne Token-Kosten, ohne LLM-Inferenzverzögerung und mit 100% Determinismus abgespielt werden. Das generierte Skript wird innerhalb der Webseite selbst ausgeführt, nicht über einen Proxy, einen Headless-Worker oder eine Out-of-Process-Lösung.
Wichtige Architekturentscheidung
Das Skript wird im Ausführungskontext der Webseite ausgeführt, was bedeutet, dass alle Authentifizierungsdaten, CSRF-Tokens, TLS-Sitzungen und signierten Header automatisch zu Anfragen hinzugefügt werden. Es ist keine Zertifikatsinstallation, TLS-Fingerprint-Modifikation oder separate Wartung einer Authentifizierungs-Stack erforderlich.
Aufzeichnungsmechanismus
Während der Aufzeichnung fängt die Erweiterung Netzwerkanfragen mithilfe von zwei Ebenen ab:
- MAIN-World-Fetch/XHR-Patch, installiert bevor irgendein Seiten-Skript läuft
- Chromes webRequest-API als korrelierter Fallback für CORS- und Service-Worker-Pfade
Anfragekörper einschließlich FormData, Blob und Rohbytes werden erfasst, nicht nur JSON.
Verarbeitung der Netzwerkerfassung
Das System bewertet und reduziert etwa 300 Anfragen auf etwa 5 basierend auf mehreren Signalen:
- First-Party vs. Third-Party-Herkunft (+20 / −15)
- Bekannte Telemetrie-Hosts (Sentry, Segment, Hotjar, RUM): −80
- Zeitliche Korrelation zu DOM-Ereignissen (+28 innerhalb von 800ms, +16 innerhalb von 2,5s)
- Methode und Payload-Form (mutierende POST/PUT/PATCH/DELETE: +35; GET: +5; mit Anfragekörper: +8)
- Antwortqualität (2xx: +12; 4xx+: −25; nicht-leerer Körper: +4)
- Flüchtige Operations-IDs (−18) für GraphQL queryId, doc_id, operationHash
Flüchtige GraphQL-Operations-IDs lösen einen DOM-only-Fallback aus, bevor sie beim nächsten Durchlauf stillschweigend fehlschlagen.
Struktur des generierten Codes
Der generierte Code kombiniert Netzwerkaufrufe mit DOM-Aktionen (Klick, Eingabe, Finden) in derselben Funktion über einen rtrvr.*-Helper-Namespace. Die fünf bestbewerteten Anfragen plus DOM-Interaktionen werden in einen 12.000-Zeichen-Kontext für den Generator gerendert.
Nutzungsmuster
Richten Sie einen KI-Agenten auf eine Tabelle mit 500 Zeilen aus, und mit nur einem LLM-Aufruf werden Parameter zugewiesen und 500 Subroutinen gestartet.
Wichtige Anwendungsfälle
- Zeichnen Sie das Senden einer Instagram-DM auf und haben Sie dann eine wiederverwendbare Routine, um DMs ohne Token-Kosten zu senden
- Erstellen Sie eine Routine, um die neuesten Produkte in einem Site-Katalog abzurufen, und rufen Sie sie auf, um Tausende von Produkten über direkte GraphQL-Abfragen zu erhalten
- Richten Sie eine Routine ein, um EHR-Formulare basierend auf Parametern auszufüllen, wobei die KI Parameter aus dem aktuellen Seitenkontext ableitet
- Nutzen Sie Routinen täglich wieder, um ausgehende Nachrichten auf LinkedIn/Slack/Gmail über einen MCP-Server mit einem CRM zu synchronisieren
Warum das wichtig ist
Das grundlegende Problem mit Browser-Agenten für wiederkehrende Aufgaben ist, dass der Durchlauf durch den Inferenz-Loop unnötig ist. Einmaliges Aufzeichnen und das Generieren eines Skripts durch das LLM, das alle möglichen Interaktionsmethoden nutzt (direkte API-Aufrufe, DOM-Interaktionen, Third-Party-Tools/APIs/MCP-Server), bietet deterministische, kosteneffektive Automatisierung.
📖 Read the full source: HN LLM Tools
👀 Siehe auch

Via Open Source Universal Integration Layer verbindet KI-Tools mit einem gemeinsamen Kontextbus
Via ist eine quelloffene universelle Integrationsschicht, die Claude, Cursor, Windsurf, ChatGPT, LangChain und andere KI-Tools mit einem gemeinsamen Kontext-, Aufgaben- und Speicherbus verbindet, sodass Arbeit den Benutzern über Tools, Sitzungen und Maschinen hinweg folgen kann.

MemAware-Benchmark testet KI-Gedächtnis über die Stichwortsuche hinaus
MemAware ist ein Benchmark mit 900 Fragen über 3 Schwierigkeitsgrade, der testet, ob KI-Assistenten mit Gedächtnis relevante Kontexte abrufen können, wenn Anfragen keine Hinweise darauf geben. Ergebnisse zeigen: BM25-Suche erzielte 2,8 % gegenüber 0,8 % ohne Gedächtnis, während Vektorsuche bei domänenübergreifenden Verbindungen auf 0,7 % sinkt.

ClawTalk iOS-App ermöglicht Sprach-Chat mit selbst-gehosteten OpenClaw-KI-Agenten
ClawTalk ist eine native iOS-App, die Push-to-Talk-Sprachchat für selbst gehostete OpenClaw-LLM-Setups bietet. Sie verfügt über On-Device-Spracherkennung mit WhisperKit, Echtzeit-Streaming-Antworten mit Markdown-Rendering und unterstützt mehrere TTS-Optionen, darunter ElevenLabs, OpenAI und Apples eingebaute Stimmen.

Lokale semantische Suche für KI-Gespräche mit fastembed und LanceDB
Ein Entwickler hat 368K KI-Konversationsnachrichten lokal mit fastembed für CPU-basierte Embeddings und LanceDB als serverlosen Vektorspeicher indiziert und dabei eine p50-Suchlatenz von 12ms ohne API-Schlüssel erreicht.