Suplente: Un Agente de Escritorio Enseñable Que Aprende Tareas por Demostración

✍️ OpenClawRadar📅 Publicado: 13 de marzo de 2026🔗 Source
Suplente: Un Agente de Escritorio Enseñable Que Aprende Tareas por Demostración
Ad

Qué hace Understudy

Understudy es un agente de escritorio enseñable que opera tu computadora como un colega humano — manejando GUI, navegador, shell, sistema de archivos y herramientas de mensajería en un solo entorno de ejecución local. La innovación central es enseñar mediante demostración: realizas una tarea una vez, el agente graba video de pantalla más eventos semánticos, extrae la intención (no solo coordenadas), y la convierte en una habilidad reutilizable.

Estado actual de implementación

El sistema está diseñado como cinco capas, con estado de implementación actual:

  • Capa 1 (Operar software nativamente): Implementado hoy en macOS. Opera cualquier aplicación de escritorio de macOS usando 13 herramientas + fundamentación de captura de pantalla + entrada nativa.
  • Capa 2 (Aprender de demostraciones): Implementado y usable hoy. El usuario muestra una tarea una vez — el agente extrae la intención, valida, aprende.
  • Capa 3 (Memoria cristalizada): Parcialmente implementado. El agente acumula experiencia del uso diario, solidifica caminos exitosos.
  • Capa 4 (Optimización de rutas): Parcialmente implementado. Descubre y actualiza automáticamente a rutas de ejecución más rápidas.
  • Capa 5 (Autonomía proactiva): Sigue siendo la dirección a largo plazo. Notar y actuar en su propio espacio de trabajo sin interrumpir al usuario.
Ad

Capacidades técnicas

Understudy es un entorno de ejecución de escritorio unificado que mezcla cada ruta de ejecución en un ciclo de agente, una sesión, una tubería de políticas:

  • GUI: 13 herramientas + fundamentación de captura de pantalla + entrada nativa para cualquier aplicación de escritorio de macOS
  • Navegador: Playwright gestionado + relé de extensión de Chrome para cualquier sitio web con sesiones de inicio de sesión
  • Shell: herramienta bash con acceso local completo para herramientas CLI, scripts, sistema de archivos
  • Web: web_search + web_fetch para recuperación de información en tiempo real
  • Memoria: Memoria semántica entre sesiones para contexto persistente y preferencias
  • Mensajería: Soporte para 8 canales

Cómo funciona en la práctica

En el video de demostración, el creador enseña a Understudy a: buscar en Google Imágenes → descargar una foto → eliminar fondo en Pixelmator Pro → exportar → enviar vía Telegram. Luego le pide que haga lo mismo para Elon Musk. La reproducción no es un macro frágil — la habilidad publicada almacena pasos de intención, opciones de ruta, y sugerencias GUI solo como respaldo. Puede preferir rutas más rápidas cuando estén disponibles en lugar de repetir cada paso GUI.

Instalación y configuración

Plataforma actual: solo macOS. La instalación es vía npm:

npm install -g @understudy-ai/understudy
understudy wizard

El artefacto de habilidad publicado de la demostración de exhibición está disponible en examples/published-skills/taught-person-photo-cutout-bc88ec/SKILL.md para inspección.

Para quién es

Desarrolladores que trabajan en múltiples aplicaciones de escritorio y quieren automatizar tareas repetitivas sin construir integraciones personalizadas o creadores de flujos de trabajo.

📖 Read the full source: HN AI Agents

Ad

👀 Ver también

Gancho de puntuación de confianza de código abierto para Claude Code monitorea sesiones, bloquea rutas protegidas
Herramientas

Gancho de puntuación de confianza de código abierto para Claude Code monitorea sesiones, bloquea rutas protegidas

Un desarrollador creó un gancho en Python que puntúa cada sesión de Claude Code en dimensiones de confiabilidad, alcance y costo, bloquea el acceso a rutas protegidas como archivos .env, y encadena eventos con hash para detección de manipulaciones. La herramienta de un solo archivo está disponible en GitHub.

OpenClawRadar
Google PM publica como código abierto un agente de memoria siempre activo con almacenamiento SQLite, sin base de datos vectorial.
Herramientas

Google PM publica como código abierto un agente de memoria siempre activo con almacenamiento SQLite, sin base de datos vectorial.

Shubham Saboo, gerente sénior de productos de IA en Google, ha liberado como código abierto un Agente de Memoria Siempre Activo que almacena recuerdos estructurados en SQLite en lugar de utilizar bases de datos vectoriales, funcionando con Gemini 3.1 Flash-Lite con consolidación de memoria programada cada 30 minutos.

OpenClawRadar
Transmitido: Una Habilidad de Código Claude para Publicación Instantánea de HTML en URLs en Vivo
Herramientas

Transmitido: Una Habilidad de Código Claude para Publicación Instantánea de HTML en URLs en Vivo

Aired es una herramienta de código abierto que publica HTML en una URL en vivo en 2 segundos mediante habilidades de Claude Code o servidores MCP. No requiere registro, configuración de despliegue ni instalación para herramientas de IA basadas en web, y funciona con Claude Code, Cursor, VS Code, Codex y Windsurf.

OpenClawRadar
Brunnfeld Agentic World: Simulación de Economía Medieval Multi-Agente Sin Indicaciones de Comportamiento
Herramientas

Brunnfeld Agentic World: Simulación de Economía Medieval Multi-Agente Sin Indicaciones de Comportamiento

Una simulación en TypeScript donde 20 agentes de LLM comercian autónomamente en una economía de aldea medieval sin instrucciones de comportamiento, objetivos o estrategias comerciales. Los agentes reciben percepciones de ~200 tokens por cada tick e interactúan a través de un motor determinista que maneja física, recetas y mecánicas de mercado.

OpenClawRadar