Subrutinas de IA: Automatización Determinista del Navegador con Costo Cero de Tokens

Qué hacen los Subrutinas de IA
Los Subrutinas de IA graban tareas del navegador una vez y las guardan como herramientas invocables que se reproducen a costo cero de tokens, sin retraso de inferencia de LLM y con 100% de determinismo. El script generado se ejecuta dentro de la página web misma, no a través de un proxy, un trabajador sin cabeza o una solución fuera de proceso.
Decisión arquitectónica clave
El script se ejecuta dentro del contexto de ejecución de la página web, lo que significa que toda la autenticación, tokens CSRF, sesiones TLS y encabezados firmados se agregan a las solicitudes automáticamente. No se requiere instalación de certificados, modificación de huella digital TLS o mantenimiento de una pila de autenticación separada.
Mecanismo de grabación
Durante la grabación, la extensión intercepta las solicitudes de red usando dos capas:
- Parche de fetch/XHR del MUNDO-PRINCIPAL instalado antes de que se ejecute cualquier script de página
- API webRequest de Chrome como respaldo correlacionado para rutas CORS y de service-worker
Se capturan los cuerpos de las solicitudes, incluidos FormData, Blob y bytes sin procesar, no solo JSON.
Procesamiento de captura de red
El sistema puntúa y recorta aproximadamente 300 solicitudes a unas 5 basándose en múltiples señales:
- Origen de primera parte vs. de terceros (+20 / −15)
- Hosts de telemetría conocidos (Sentry, Segment, Hotjar, RUM): −80
- Correlación temporal con eventos DOM (+28 dentro de 800ms, +16 dentro de 2.5s)
- Método y forma de carga útil (POST/PUT/PATCH/DELETE mutantes: +35; GET: +5; con cuerpo de solicitud: +8)
- Calidad de respuesta (2xx: +12; 4xx+: −25; cuerpo no vacío: +4)
- Identificadores de operación volátiles (−18) para queryId de GraphQL, doc_id, operationHash
Los IDs de operación volátiles de GraphQL activan un respaldo solo de DOM antes de que fallen silenciosamente en la próxima ejecución.
Estructura del código generado
El código generado combina llamadas de red con acciones DOM (clic, escribir, encontrar) en la misma función a través de un espacio de nombres auxiliar rtrvr.*. Las cinco principales solicitudes clasificadas más las interacciones DOM se renderizan en un contexto de 12,000 caracteres para el generador.
Patrón de uso
Dirige un agente de IA a una hoja de cálculo de 500 filas, y con solo una llamada LLM, se asignan parámetros y se inician 500 Subrutinas.
Casos de uso clave
- Graba el envío de un DM de Instagram, luego ten una rutina reutilizable para enviar DMs a costo cero de tokens
- Crea una rutina para obtener los últimos productos en un catálogo de sitio, llámala para obtener miles de productos a través de consultas GraphQL directas
- Configura una rutina para completar formularios EHR basados en parámetros, con la IA infiriendo parámetros del contexto de la página actual
- Reutiliza rutinas diariamente para sincronizar mensajes salientes en LinkedIn/Slack/Gmail a un CRM usando un servidor MCP
Por qué esto importa
El problema fundamental con los agentes de navegador para tareas repetitivas es que pasar por el bucle de inferencia es innecesario. Grabar una vez y hacer que el LLM genere un script que aproveche todos los métodos de interacción posibles (llamadas API directas, interacciones DOM, herramientas/APIs/servidores MCP de terceros) proporciona automatización determinista y rentable.
📖 Read the full source: HN LLM Tools
👀 Ver también

"Arnés de Navegador: Otorgando a los LLM acceso directo a CDP para autocorregir tareas del navegador"
Browser Harness elimina los marcos de trabajo del navegador, otorgando a los LLMs acceso directo a websocket CDP y permitiéndoles escribir las herramientas que faltan durante la tarea. Demostrado autoinventando una función upload_file().

Formato de Mente Portátil (PMF): Especificación de Agente Independiente del Proveedor con 15 Agentes de Código Abierto
El Formato de Mente Portátil (PMF) es una especificación basada en JSON para definir identidades de agentes de IA que pueden ejecutarse en múltiples modelos y proveedores, incluidos Claude, GPT-4, Gemini, DeepSeek y modelos locales a través de Ollama. Incluye 15 agentes de producción con licencia MIT y convertidores para Claude Code, Cursor, GitHub Copilot y Gemini CLI.

Loom: Un Arnés de Ejecución Local para Tareas Complejas de IA
Loom es un arnés de ejecución local de código abierto diseñado para gestionar tareas complejas proporcionando un proceso estructurado con alrededor de 50 herramientas, un sistema de complementos de paquetes personalizados para flujos de trabajo repetibles, e interfaces tanto de CLI como de servidor MCP.

Tokens del Repositorio: Acción de GitHub Agrega Insignia de Conteo de Tokens para Conciencia de Ventana de Contexto de LLM
Repo Tokens es una acción de GitHub que cuenta el tamaño de tu base de código en tokens usando tiktoken y muestra una insignia en tu README indicando qué porcentaje de la ventana de contexto de un LLM ocupa. La insignia usa verde para menos del 30%, amarillo para 50-70% y rojo para 70% o más.