Subrutinas de IA: Automatización Determinista del Navegador con Costo Cero de Tokens

✍️ OpenClawRadar📅 Publicado: 19 de abril de 2026🔗 Source
Subrutinas de IA: Automatización Determinista del Navegador con Costo Cero de Tokens
Ad

Qué hacen los Subrutinas de IA

Los Subrutinas de IA graban tareas del navegador una vez y las guardan como herramientas invocables que se reproducen a costo cero de tokens, sin retraso de inferencia de LLM y con 100% de determinismo. El script generado se ejecuta dentro de la página web misma, no a través de un proxy, un trabajador sin cabeza o una solución fuera de proceso.

Decisión arquitectónica clave

El script se ejecuta dentro del contexto de ejecución de la página web, lo que significa que toda la autenticación, tokens CSRF, sesiones TLS y encabezados firmados se agregan a las solicitudes automáticamente. No se requiere instalación de certificados, modificación de huella digital TLS o mantenimiento de una pila de autenticación separada.

Mecanismo de grabación

Durante la grabación, la extensión intercepta las solicitudes de red usando dos capas:

  • Parche de fetch/XHR del MUNDO-PRINCIPAL instalado antes de que se ejecute cualquier script de página
  • API webRequest de Chrome como respaldo correlacionado para rutas CORS y de service-worker

Se capturan los cuerpos de las solicitudes, incluidos FormData, Blob y bytes sin procesar, no solo JSON.

Procesamiento de captura de red

El sistema puntúa y recorta aproximadamente 300 solicitudes a unas 5 basándose en múltiples señales:

  • Origen de primera parte vs. de terceros (+20 / −15)
  • Hosts de telemetría conocidos (Sentry, Segment, Hotjar, RUM): −80
  • Correlación temporal con eventos DOM (+28 dentro de 800ms, +16 dentro de 2.5s)
  • Método y forma de carga útil (POST/PUT/PATCH/DELETE mutantes: +35; GET: +5; con cuerpo de solicitud: +8)
  • Calidad de respuesta (2xx: +12; 4xx+: −25; cuerpo no vacío: +4)
  • Identificadores de operación volátiles (−18) para queryId de GraphQL, doc_id, operationHash

Los IDs de operación volátiles de GraphQL activan un respaldo solo de DOM antes de que fallen silenciosamente en la próxima ejecución.

Ad

Estructura del código generado

El código generado combina llamadas de red con acciones DOM (clic, escribir, encontrar) en la misma función a través de un espacio de nombres auxiliar rtrvr.*. Las cinco principales solicitudes clasificadas más las interacciones DOM se renderizan en un contexto de 12,000 caracteres para el generador.

Patrón de uso

Dirige un agente de IA a una hoja de cálculo de 500 filas, y con solo una llamada LLM, se asignan parámetros y se inician 500 Subrutinas.

Casos de uso clave

  • Graba el envío de un DM de Instagram, luego ten una rutina reutilizable para enviar DMs a costo cero de tokens
  • Crea una rutina para obtener los últimos productos en un catálogo de sitio, llámala para obtener miles de productos a través de consultas GraphQL directas
  • Configura una rutina para completar formularios EHR basados en parámetros, con la IA infiriendo parámetros del contexto de la página actual
  • Reutiliza rutinas diariamente para sincronizar mensajes salientes en LinkedIn/Slack/Gmail a un CRM usando un servidor MCP

Por qué esto importa

El problema fundamental con los agentes de navegador para tareas repetitivas es que pasar por el bucle de inferencia es innecesario. Grabar una vez y hacer que el LLM genere un script que aproveche todos los métodos de interacción posibles (llamadas API directas, interacciones DOM, herramientas/APIs/servidores MCP de terceros) proporciona automatización determinista y rentable.

📖 Read the full source: HN LLM Tools

Ad

👀 Ver también

"Arnés de Navegador: Otorgando a los LLM acceso directo a CDP para autocorregir tareas del navegador"
Herramientas

"Arnés de Navegador: Otorgando a los LLM acceso directo a CDP para autocorregir tareas del navegador"

Browser Harness elimina los marcos de trabajo del navegador, otorgando a los LLMs acceso directo a websocket CDP y permitiéndoles escribir las herramientas que faltan durante la tarea. Demostrado autoinventando una función upload_file().

OpenClawRadar
Formato de Mente Portátil (PMF): Especificación de Agente Independiente del Proveedor con 15 Agentes de Código Abierto
Herramientas

Formato de Mente Portátil (PMF): Especificación de Agente Independiente del Proveedor con 15 Agentes de Código Abierto

El Formato de Mente Portátil (PMF) es una especificación basada en JSON para definir identidades de agentes de IA que pueden ejecutarse en múltiples modelos y proveedores, incluidos Claude, GPT-4, Gemini, DeepSeek y modelos locales a través de Ollama. Incluye 15 agentes de producción con licencia MIT y convertidores para Claude Code, Cursor, GitHub Copilot y Gemini CLI.

OpenClawRadar
Loom: Un Arnés de Ejecución Local para Tareas Complejas de IA
Herramientas

Loom: Un Arnés de Ejecución Local para Tareas Complejas de IA

Loom es un arnés de ejecución local de código abierto diseñado para gestionar tareas complejas proporcionando un proceso estructurado con alrededor de 50 herramientas, un sistema de complementos de paquetes personalizados para flujos de trabajo repetibles, e interfaces tanto de CLI como de servidor MCP.

OpenClawRadar
Tokens del Repositorio: Acción de GitHub Agrega Insignia de Conteo de Tokens para Conciencia de Ventana de Contexto de LLM
Herramientas

Tokens del Repositorio: Acción de GitHub Agrega Insignia de Conteo de Tokens para Conciencia de Ventana de Contexto de LLM

Repo Tokens es una acción de GitHub que cuenta el tamaño de tu base de código en tokens usando tiktoken y muestra una insignia en tu README indicando qué porcentaje de la ventana de contexto de un LLM ocupa. La insignia usa verde para menos del 30%, amarillo para 50-70% y rojo para 70% o más.

OpenClawRadar