Gemma Gem: Agente de IA en el dispositivo para automatización de navegadores a través de WebGPU

✍️ OpenClawRadar📅 Publicado: 16 de abril de 2026🔗 Source

Gemma Gem es una extensión de Chrome que carga el modelo Gemma 4 de Google (2B o 4B) a través de WebGPU en un documento fuera de pantalla, dándole herramientas para interactuar directamente con páginas web en el navegador sin llamadas a API externas.

Detalles Clave

La extensión proporciona varias herramientas que se ejecutan en diferentes contextos:

read_page_content: Leer texto/HTML de la página o un selector CSS (Script de contenido)
take_screenshot: Capturar la página visible como PNG (Worker de servicio)
click_element: Hacer clic en un elemento por selector CSS (Script de contenido)
type_text: Escribir en un campo de entrada por selector CSS (Script de contenido)
scroll_page: Desplazarse hacia arriba/abajo por cantidad de píxeles (Script de contenido)
run_javascript: Ejecutar JS en el contexto de la página con acceso completo al DOM (Worker de servicio)

La arquitectura utiliza tres componentes principales:

Documento fuera de pantalla: Aloja el modelo vía @huggingface/transformers + WebGPU, ejecuta el ciclo del agente
Worker de servicio: Enruta mensajes entre scripts de contenido y documento fuera de pantalla, maneja take_screenshot y run_javascript
Script de contenido: Inyecta icono de gema + superposición de chat en DOM sombra, ejecuta herramientas DOM

Configuración y Uso

Requisitos:

Chrome con soporte WebGPU
~500MB de disco para modelo E2B, ~1.5GB para E4B (en caché después de la primera ejecución)

Comandos de configuración:

pnpm install
pnpm build

Carga la extensión en chrome://extensions (modo desarrollador) desde .output/chrome-mv3-dev/.

Uso:

Navega a cualquier página
Haz clic en el icono de gema (esquina inferior derecha) para abrir el chat
Espera a que cargue el modelo (progreso mostrado en icono + chat)
Haz preguntas sobre la página o solicita acciones

Ajustes y Configuración

Ajustes disponibles mediante icono de engranaje en cabecera del chat:

Modelo: Cambiar entre Gemma 4 E2B (~500MB) y E4B (~1.5GB) - selección persiste entre sesiones
Pensamiento: Activar/desactivar pensamiento nativo de Gemma 4
Iteraciones máximas: Límite en bucles de llamadas a herramientas por solicitud
Borrar contexto: Reiniciar historial de conversación para la página actual
Desactivar en este sitio: Deshabilitar la extensión por nombre de host (persistente)

Desarrollo y Depuración

Tecnologías utilizadas:

WXT — Framework para extensiones de Chrome (basado en Vite)
@huggingface/transformers — Inferencia de ML en navegador
marked — Renderizado de Markdown en chat
Gemma 4 E2B / E4B (onnx-community/gemma-4-E2B-it-ONNX, onnx-community/gemma-4-E4B-it-ONNX) — Cuantización q4f16, contexto de 128K

Comandos de construcción:

pnpm build        # Construcción de desarrollo (con registro, mapas de origen)
pnpm build:prod   # Construcción de producción (registro silenciado, minimizado)

Ubicaciones de depuración:

Registros de worker de servicio: chrome://extensions → Gemma Gem → "Inspect views: service worker"
Registros de documento fuera de pantalla: chrome://extensions → Gemma Gem → "Inspect views: offscreen.html"
Registros de script de contenido: Abrir DevTools en cualquier página → Consola
Todas las páginas de extensión: chrome://inspect#other lista todos los contextos de extensión inspeccionables

Los registros del documento fuera de pantalla muestran carga del modelo, construcción de prompts, conteos de tokens, salida cruda del modelo y ejecución de herramientas.

Notas Técnicas

El directorio agent/ tiene cero dependencias y define interfaces (ModelBackend, ToolExecutor) que pueden extraerse como biblioteca independiente. La extensión incluye un modo de pensamiento que muestra razonamiento paso a paso mientras trabaja.

Según la fuente, el agente funciona para preguntas simples sobre páginas y ejecución de JavaScript, pero las cadenas de herramientas de múltiples pasos son poco confiables y a veces ignora sus herramientas por completo.

📖 Leer la fuente completa: HN AI Agents

👀 Ver también

Herramientas

ai-codex: Pre-indexa tu base de código para ahorrar tokens de Claude

ai-codex es una herramienta que genera índices compactos en markdown de tu base de código, permitiendo que Claude Code omita la fase de exploración inicial que normalmente consume 30-50K tokens por conversación. Crea cinco archivos que cubren rutas, páginas, bibliotecas, esquemas y componentes.

14 abr 2026, 01:45 UTC

OpenClawRadar

Herramientas

Skillware añade generador de datos sintéticos con puntuación de entropía para ajuste local de modelos.

Skillware ha lanzado una nueva habilidad de generador de datos sintéticos que utiliza heurísticas de relación de compresión zlib para puntuar la diversidad de la salida, ayudando a prevenir el colapso del modelo. La herramienta funciona de inmediato con Ollama, es compatible con Gemini/Anthropic para lotes de alto razonamiento y genera lotes JSON para pipelines de ajuste fino .jsonl.

21 abr 2026, 02:33 UTC

OpenClawRadar

Herramientas

Outworked v0.3.0 agrega soporte para iMessage, un navegador integrado y programación para los agentes Claude Code.

Outworked v0.3.0 introduce soporte para el canal iMessage en la comunicación de agentes, un navegador integrado para interacción web, programación mediante cron, tunelización para compartir contenido local y mejoras en el soporte de MCP/Habilidades. La aplicación de escritorio organiza a los agentes Claude Code como un equipo para manejar tareas de programación, investigación web y flujos de trabajo automatizados.

28 mar 2026, 09:45 UTC

OpenClawRadar

Herramientas

Se Lanzan Cinco Extensiones Gratuitas para Claude Desktop: Inspector Lite, Graph Lite, Bible Code, Word Graph y Fun Pack

Un desarrollador ha publicado cinco extensiones locales de código abierto para Claude Desktop: Inspector Lite para búsqueda semántica de código, Graph Lite para un grafo de conocimiento personal, Fun Pack para funciones de entretenimiento, Word Graph para estudio bíblico y Bible Code para detección de patrones. Todas se ejecutan localmente sin dependencias externas ni claves API adicionales.

18 abr 2026, 09:45 UTC

OpenClawRadar