PageAgent: Agente de IA para Navegador que Se Ejecuta Dentro de Páginas Web con Soporte para Ollama

Qué hace PageAgent
PageAgent es un framework de agente de IA para navegadores que se ejecuta como una biblioteca de JavaScript dentro de las propias páginas web, a diferencia de la mayoría de frameworks como Playwright o Selenium que controlan el navegador desde fuera.
Detalles técnicos clave
El agente lee el DOM en vivo como texto, eliminando la necesidad de capturas de pantalla o modelos de visión, lo que lo hace más rápido y eficiente en tokens.
Funciona con cualquier endpoint compatible con OpenAI, incluido Ollama. Cuando se combina con un modelo local, todo permanece en tu máquina sin necesidad de backend o nube: las llamadas LLM van directamente desde el navegador a localhost.
Ejemplo de código
const agent = new PageAgent({
model: 'qwen3.5:27b',
baseURL: 'http://localhost:11434/v1',
})
await agent.execute('Fill the expense report for last Friday')Características adicionales
- Panel de humano en el bucle que te permite ver al agente pensando y detenerlo/corregirlo en cualquier momento
- Extensión opcional del navegador para tareas de múltiples pestañas
- Licencia MIT
El proyecto está disponible en GitHub en alibaba/page-agent.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

SimplePDF Copilot: Herramienta de IA del lado del cliente para completar formularios PDF
SimplePDF Copilot usa llamadas a herramientas del lado del cliente para permitir que un LLM rellene campos, agregue campos, elimine páginas y más en PDFs, sin que el PDF salga del navegador.

ClawHost de Código Abierto OpenClaw con Implementación en un Clic Alcanza Más de 200 Estrellas en GitHub
ClawHost, una herramienta de código abierto para la instalación de OpenClaw con un solo clic que ofrece acceso y control total del servidor, ha alcanzado más de 200 estrellas en GitHub. El proyecto aborda los problemas de los envoltorios comerciales inestables al proporcionar una solución gratuita y autoalojable.

La Aplicación de Escritorio de Claude con la Función de Colaboración Permite la Comunicación de IA a IA a través de Documentos Compartidos de Google
Los usuarios han implementado con éxito la comunicación de Claude a Claude utilizando la nueva función de colaboración en la aplicación de escritorio, con dos agentes leyendo y escribiendo en un documento compartido de Google. La prueba involucró cinco rondas de diálogo de preguntas y respuestas entre los agentes de IA.

ProofShot CLI Brinda a los Agentes de Codificación con IA Capacidades de Verificación en el Navegador
ProofShot es una herramienta CLI de código abierto que permite a los agentes de IA de programación verificar características de la interfaz de usuario grabando sesiones del navegador, capturando capturas de pantalla y recopilando errores de la consola. Funciona con cualquier agente que pueda ejecutar comandos de shell y genera informes HTML autónomos para revisión humana.