Sous-programmes IA : Automatisation Navigateur sans Coût Token

Ce que font les sous-programmes IA

Les sous-programmes IA enregistrent les tâches de navigateur une fois et les sauvegardent comme outils appelables qui se rejouent sans coût en tokens, sans délai d'inférence LLM et avec 100 % de déterminisme. Le script généré s'exécute dans la page web elle-même, et non via un proxy, un worker headless ou une solution hors processus.

Décision architecturale clé

Le script s'exécute dans le contexte d'exécution de la page web, ce qui signifie que toutes les authentifications, jetons CSRF, sessions TLS et en-têtes signés sont automatiquement ajoutés aux requêtes. Aucune installation de certificat, modification d'empreinte TLS ou maintenance de pile d'authentification séparée n'est requise.

Mécanisme d'enregistrement

Pendant l'enregistrement, l'extension intercepte les requêtes réseau en utilisant deux couches :

Correctif fetch/XHR du monde PRINCIPAL installé avant l'exécution de tout script de page
L'API webRequest de Chrome comme solution de secours corrélée pour les chemins CORS et service-worker

Les corps de requête, y compris FormData, Blob et les octets bruts, sont capturés, pas seulement le JSON.

Traitement de la capture réseau

Le système note et réduit environ 300 requêtes à environ 5 en fonction de plusieurs signaux :

Origine première partie vs tierce partie (+20 / −15)
Hôtes de télémétrie connus (Sentry, Segment, Hotjar, RUM) : −80
Corrélation temporelle avec les événements DOM (+28 dans les 800 ms, +16 dans les 2,5 s)
Méthode et forme de la charge utile (POST/PUT/PATCH/DELETE mutateurs : +35 ; GET : +5 ; avec corps de requête : +8)
Qualité de la réponse (2xx : +12 ; 4xx+ : −25 ; corps non vide : +4)
Identifiants d'opération volatils (−18) pour queryId GraphQL, doc_id, operationHash

Les identifiants d'opération GraphQL volatils déclenchent une solution de secours DOM uniquement avant qu'ils ne cessent silencieusement de fonctionner lors de la prochaine exécution.

Structure du code généré

Le code généré combine les appels réseau avec les actions DOM (cliquer, taper, trouver) dans la même fonction via un espace de noms d'aide rtrvr.*. Les cinq premières requêtes classées ainsi que les interactions DOM sont rendues dans un contexte de 12 000 caractères pour le générateur.

Modèle d'utilisation

Pointez un agent IA vers une feuille de calcul de 500 lignes, et avec un seul appel LLM, les paramètres sont attribués et 500 sous-programmes sont lancés.

Cas d'utilisation clés

Enregistrez l'envoi d'un DM Instagram, puis utilisez une routine réutilisable pour envoyer des DM sans coût en tokens
Créez une routine pour obtenir les derniers produits d'un catalogue de site, appelez-la pour obtenir des milliers de produits via des requêtes GraphQL directes
Configurez une routine pour remplir des formulaires EHR basés sur des paramètres, avec l'IA inférant les paramètres à partir du contexte de la page actuelle
Réutilisez des routines quotidiennement pour synchroniser les messages sortants sur LinkedIn/Slack/Gmail vers un CRM en utilisant un serveur MCP

Pourquoi c'est important

Le problème fondamental des agents de navigateur pour les tâches répétitives est que passer par la boucle d'inférence est inutile. Enregistrer une fois et faire générer à l'LLM un script qui exploite toutes les méthodes d'interaction possibles (appels API directs, interactions DOM, outils/API/serveurs MCP tiers) fournit une automatisation déterministe et rentable.

📖 Read the full source: HN LLM Tools