Substituto: Um Agente de Desktop Ensinável Que Aprende Tarefas por Demonstração

O que o Understudy faz
Understudy é um agente desktop ensinável que opera seu computador como um colega humano — lidando com GUI, navegador, shell, sistema de arquivos e ferramentas de mensagens em um único runtime local. A inovação central é ensinar por demonstração: você executa uma tarefa uma vez, o agente grava vídeo da tela mais eventos semânticos, extrai a intenção (não apenas coordenadas) e a transforma em uma habilidade reutilizável.
Status atual da implementação
O sistema é projetado como cinco camadas, com o status atual de implementação:
- Camada 1 (Operar Software Nativamente): Implementada hoje no macOS. Opera qualquer aplicativo desktop macOS usando 13 ferramentas + fundamentação de captura de tela + entrada nativa.
- Camada 2 (Aprender com Demonstrações): Implementada e utilizável hoje. O usuário mostra uma tarefa uma vez — o agente extrai a intenção, valida, aprende.
- Camada 3 (Memória Cristalizada): Parcialmente implementada. O agente acumula experiência do uso diário, solidifica caminhos bem-sucedidos.
- Camada 4 (Otimização de Rota): Parcialmente implementada. Descobre e atualiza automaticamente para rotas de execução mais rápidas.
- Camada 5 (Autonomia Proativa): Ainda é a direção de longo prazo. Perceber e agir em seu próprio espaço de trabalho sem interromper o usuário.
Capacidades Técnicas
Understudy é um runtime desktop unificado que mistura todas as rotas de execução em um loop de agente, uma sessão, um pipeline de política:
- GUI: 13 ferramentas + fundamentação de captura de tela + entrada nativa para qualquer aplicativo desktop macOS
- Navegador: Playwright gerenciado + retransmissão de extensão do Chrome para qualquer site com sessões de login
- Shell: ferramenta bash com acesso local completo para ferramentas CLI, scripts, sistema de arquivos
- Web: web_search + web_fetch para recuperação de informações em tempo real
- Memória: Memória semântica entre sessões para contexto persistente e preferências
- Mensagens: Suporte a 8 canais
Como funciona na prática
No vídeo de demonstração, o criador ensina o Understudy a: pesquisar imagem no Google → baixar uma foto → remover fundo no Pixelmator Pro → exportar → enviar via Telegram. Em seguida, pede para fazer o mesmo para Elon Musk. A reprodução não é uma macro frágil — a habilidade publicada armazena etapas de intenção, opções de rota e dicas GUI apenas como fallback. Pode preferir rotas mais rápidas quando disponíveis em vez de repetir cada etapa GUI.
Instalação e Configuração
Plataforma atual: apenas macOS. A instalação é via npm:
npm install -g @understudy-ai/understudy
understudy wizard
O artefato de habilidade publicado da demonstração de showcase está disponível em examples/published-skills/taught-person-photo-cutout-bc88ec/SKILL.md para inspeção.
Para quem é
Desenvolvedores que trabalham em vários aplicativos desktop e desejam automatizar tarefas repetitivas sem construir integrações personalizadas ou construtores de fluxo de trabalho.
📖 Read the full source: HN AI Agents
👀 See Also

Três Repositórios para Desenvolvimento de RAG e Agentes de IA
Uma postagem no Reddit destaca três repositórios para desenvolvedores que constroem com RAG e agentes de IA: memvid para memória de agentes, llama_index para pipelines de RAG e Continue para assistentes de programação. O autor observa que o RAG puro funciona melhor para recuperação de conhecimento, enquanto sistemas de memória são melhores para agentes, com abordagens híbridas sendo comuns em ferramentas reais.

Wolfram Tech Agora Disponível como Ferramenta de Base para Sistemas LLM
Stephen Wolfram anuncia que a Wolfram Language agora está disponível como uma ferramenta de base para sistemas LLM, fornecendo computação profunda e conhecimento preciso para complementar as capacidades dos LLMs. O anúncio segue três anos de desenvolvimento desde o lançamento do plugin inicial da Wolfram para ChatGPT em março de 2023.

Análise do Conselho LLM Revela Estratégias Práticas de Otimização de Tokens de Código Claude
Um desenvolvedor usou a ferramenta LLM Council com 5 personas para analisar padrões de uso do Claude Code, identificando que o modo de pensamento estendido por padrão era o maior consumidor de tokens. O playbook resultante alcançou redução de 60-70% nos tokens com mesma ou melhor qualidade de saída.

Configurando OpenClaw com Aluguel de GPU VAST.AI para Prompts Ilimitados do Ollama
Um usuário descreve a combinação do aluguel de GPU da VAST.AI com Ollama e OpenClaw para contornar os limites de prompts, mas encontrou desafios de configuração que exigiram edição manual de JSON.