Sous-programmes d'IA : Automatisation Déterministe du Navigateur sans Coût de Token

Ce que font les sous-programmes IA
Les sous-programmes IA enregistrent les tâches de navigateur une fois et les sauvegardent comme outils appelables qui se rejouent sans coût en tokens, sans délai d'inférence LLM et avec 100 % de déterminisme. Le script généré s'exécute dans la page web elle-même, et non via un proxy, un worker headless ou une solution hors processus.
Décision architecturale clé
Le script s'exécute dans le contexte d'exécution de la page web, ce qui signifie que toutes les authentifications, jetons CSRF, sessions TLS et en-têtes signés sont automatiquement ajoutés aux requêtes. Aucune installation de certificat, modification d'empreinte TLS ou maintenance de pile d'authentification séparée n'est requise.
Mécanisme d'enregistrement
Pendant l'enregistrement, l'extension intercepte les requêtes réseau en utilisant deux couches :
- Correctif fetch/XHR du monde PRINCIPAL installé avant l'exécution de tout script de page
- L'API webRequest de Chrome comme solution de secours corrélée pour les chemins CORS et service-worker
Les corps de requête, y compris FormData, Blob et les octets bruts, sont capturés, pas seulement le JSON.
Traitement de la capture réseau
Le système note et réduit environ 300 requêtes à environ 5 en fonction de plusieurs signaux :
- Origine première partie vs tierce partie (+20 / −15)
- Hôtes de télémétrie connus (Sentry, Segment, Hotjar, RUM) : −80
- Corrélation temporelle avec les événements DOM (+28 dans les 800 ms, +16 dans les 2,5 s)
- Méthode et forme de la charge utile (POST/PUT/PATCH/DELETE mutateurs : +35 ; GET : +5 ; avec corps de requête : +8)
- Qualité de la réponse (2xx : +12 ; 4xx+ : −25 ; corps non vide : +4)
- Identifiants d'opération volatils (−18) pour queryId GraphQL, doc_id, operationHash
Les identifiants d'opération GraphQL volatils déclenchent une solution de secours DOM uniquement avant qu'ils ne cessent silencieusement de fonctionner lors de la prochaine exécution.
Structure du code généré
Le code généré combine les appels réseau avec les actions DOM (cliquer, taper, trouver) dans la même fonction via un espace de noms d'aide rtrvr.*. Les cinq premières requêtes classées ainsi que les interactions DOM sont rendues dans un contexte de 12 000 caractères pour le générateur.
Modèle d'utilisation
Pointez un agent IA vers une feuille de calcul de 500 lignes, et avec un seul appel LLM, les paramètres sont attribués et 500 sous-programmes sont lancés.
Cas d'utilisation clés
- Enregistrez l'envoi d'un DM Instagram, puis utilisez une routine réutilisable pour envoyer des DM sans coût en tokens
- Créez une routine pour obtenir les derniers produits d'un catalogue de site, appelez-la pour obtenir des milliers de produits via des requêtes GraphQL directes
- Configurez une routine pour remplir des formulaires EHR basés sur des paramètres, avec l'IA inférant les paramètres à partir du contexte de la page actuelle
- Réutilisez des routines quotidiennement pour synchroniser les messages sortants sur LinkedIn/Slack/Gmail vers un CRM en utilisant un serveur MCP
Pourquoi c'est important
Le problème fondamental des agents de navigateur pour les tâches répétitives est que passer par la boucle d'inférence est inutile. Enregistrer une fois et faire générer à l'LLM un script qui exploite toutes les méthodes d'interaction possibles (appels API directs, interactions DOM, outils/API/serveurs MCP tiers) fournit une automatisation déterministe et rentable.
📖 Read the full source: HN LLM Tools
👀 See Also

Serveur MCP connecte Claude au marché d'agent à agent
Un développeur a créé un serveur MCP qui expose cinq outils et deux ressources, permettant à Claude de rechercher, invoquer et payer des capacités auprès d'autres agents d'IA sur un marché. Le serveur inclut un stockage persistant dans un coffre-fort d'agent et a été largement implémenté en utilisant Claude Code.

Personnaliser Claude IA pour un retour amélioré
Ajustez les paramètres de Claude IA pour éviter un accord excessif et favoriser une réflexion plus critique et des retours plus pratiques.

Bots Généraux : Plateforme d'agents IA open-source pour l'automatisation d'entreprise auto-hébergée
General Bots est une plateforme open-source lancée en 2019 qui propose des agents IA, l'automatisation des flux de travail, le traitement de documents et des intégrations avec support de modèles IA locaux, conçue pour les organisations ayant besoin d'un contrôle total sur leur infrastructure.

Pipeline Humanizer open-source : fichier Markdown en six étapes pour le post-traitement de texte IA
Un fichier Markdown unique implémente un pipeline en six étapes pour détecter et réécrire du texte généré par IA, avec conscience du canal, calibrage vocal, seuils de sévérité et auto-vérification réussie.