Substituto: Agente Desktop que Aprende Tarefas por Demonstração

O que o Understudy faz

Understudy é um agente desktop ensinável que opera seu computador como um colega humano — lidando com GUI, navegador, shell, sistema de arquivos e ferramentas de mensagens em um único runtime local. A inovação central é ensinar por demonstração: você executa uma tarefa uma vez, o agente grava vídeo da tela mais eventos semânticos, extrai a intenção (não apenas coordenadas) e a transforma em uma habilidade reutilizável.

Status atual da implementação

O sistema é projetado como cinco camadas, com o status atual de implementação:

Camada 1 (Operar Software Nativamente): Implementada hoje no macOS. Opera qualquer aplicativo desktop macOS usando 13 ferramentas + fundamentação de captura de tela + entrada nativa.
Camada 2 (Aprender com Demonstrações): Implementada e utilizável hoje. O usuário mostra uma tarefa uma vez — o agente extrai a intenção, valida, aprende.
Camada 3 (Memória Cristalizada): Parcialmente implementada. O agente acumula experiência do uso diário, solidifica caminhos bem-sucedidos.
Camada 4 (Otimização de Rota): Parcialmente implementada. Descobre e atualiza automaticamente para rotas de execução mais rápidas.
Camada 5 (Autonomia Proativa): Ainda é a direção de longo prazo. Perceber e agir em seu próprio espaço de trabalho sem interromper o usuário.

Capacidades Técnicas

Understudy é um runtime desktop unificado que mistura todas as rotas de execução em um loop de agente, uma sessão, um pipeline de política:

GUI: 13 ferramentas + fundamentação de captura de tela + entrada nativa para qualquer aplicativo desktop macOS
Navegador: Playwright gerenciado + retransmissão de extensão do Chrome para qualquer site com sessões de login
Shell: ferramenta bash com acesso local completo para ferramentas CLI, scripts, sistema de arquivos
Web: web_search + web_fetch para recuperação de informações em tempo real
Memória: Memória semântica entre sessões para contexto persistente e preferências
Mensagens: Suporte a 8 canais

Como funciona na prática

No vídeo de demonstração, o criador ensina o Understudy a: pesquisar imagem no Google → baixar uma foto → remover fundo no Pixelmator Pro → exportar → enviar via Telegram. Em seguida, pede para fazer o mesmo para Elon Musk. A reprodução não é uma macro frágil — a habilidade publicada armazena etapas de intenção, opções de rota e dicas GUI apenas como fallback. Pode preferir rotas mais rápidas quando disponíveis em vez de repetir cada etapa GUI.

Instalação e Configuração

Plataforma atual: apenas macOS. A instalação é via npm:

npm install -g @understudy-ai/understudy
understudy wizard

O artefato de habilidade publicado da demonstração de showcase está disponível em examples/published-skills/taught-person-photo-cutout-bc88ec/SKILL.md para inspeção.

Para quem é

Desenvolvedores que trabalham em vários aplicativos desktop e desejam automatizar tarefas repetitivas sem construir integrações personalizadas ou construtores de fluxo de trabalho.

📖 Read the full source: HN AI Agents

Substituto: Um Agente de Desktop Ensinável Que Aprende Tarefas por Demonstração

O que o Understudy faz

Status atual da implementação

Capacidades Técnicas

Como funciona na prática

Instalação e Configuração

Para quem é

👀 See Also

YantrikClaw Fork Adiciona Memória Cognitiva, Modo Companheiro e Ferramentas Conscientes de Nível ao ZeroClaw

Servidor MCP Adiciona Memória Persistente com Pontuação de Recuperação ao Claude Code

uimax-mcp: Servidor MCP Gratuito para Revisão e Correção Automatizada de Código Frontend com Claude Code

O Relvy melhora a precisão da análise de causa raiz do Claude em 12 pontos percentuais no benchmark OpenRCA.