Agent de Bureau Enseignable : Understudy Apprend par Démonstration

Ce que fait Understudy

Understudy est un agent de bureau enseignable qui opère votre ordinateur comme un collègue humain — gérant l'interface graphique, le navigateur, le shell, le système de fichiers et les outils de messagerie dans un seul environnement d'exécution local. L'innovation principale est l'apprentissage par démonstration : vous effectuez une tâche une fois, l'agent enregistre une vidéo d'écran ainsi que des événements sémantiques, extrait l'intention (pas seulement les coordonnées), et la transforme en une compétence réutilisable.

État actuel de l'implémentation

Le système est conçu en cinq couches, avec l'état d'implémentation actuel :

Couche 1 (Opérer les logiciels nativement) : Implémentée aujourd'hui sur macOS. Opère toute application de bureau macOS en utilisant 13 outils + ancrage par capture d'écran + saisie native.
Couche 2 (Apprendre à partir de démonstrations) : Implémentée et utilisable aujourd'hui. L'utilisateur montre une tâche une fois — l'agent extrait l'intention, valide, apprend.
Couche 3 (Mémoire cristallisée) : Partiellement implémentée. L'agent accumule de l'expérience grâce à l'utilisation quotidienne, consolide les chemins réussis.
Couche 4 (Optimisation des itinéraires) : Partiellement implémentée. Découvre et améliore automatiquement vers des chemins d'exécution plus rapides.
Couche 5 (Autonomie proactive) : Toujours la direction à long terme. Remarquer et agir dans son propre espace de travail sans perturber l'utilisateur.

Capacités techniques

Understudy est un environnement d'exécution de bureau unifié qui mélange chaque chemin d'exécution dans une seule boucle d'agent, une seule session, un seul pipeline de politique :

Interface graphique : 13 outils + ancrage par capture d'écran + saisie native pour toute application de bureau macOS
Navigateur : Playwright géré + relais d'extension Chrome pour tout site web avec sessions de connexion
Shell : outil bash avec accès local complet pour les outils CLI, scripts, système de fichiers
Web : web_search + web_fetch pour la récupération d'informations en temps réel
Mémoire : Mémoire sémantique entre les sessions pour un contexte et des préférences persistants
Messagerie : Support de 8 canaux

Comment cela fonctionne en pratique

Dans la vidéo de démonstration, le créateur apprend à Understudy à : Rechercher une image sur Google → télécharger une photo → supprimer l'arrière-plan dans Pixelmator Pro → exporter → envoyer via Telegram. Puis lui demande de faire la même chose pour Elon Musk. La relecture n'est pas une macro fragile — la compétence publiée stocke les étapes d'intention, les options d'itinéraire, et les indices d'interface graphique uniquement comme solution de secours. Elle peut préférer des chemins plus rapides lorsqu'ils sont disponibles au lieu de répéter chaque étape d'interface graphique.

Installation et configuration

Plateforme actuelle : macOS uniquement. L'installation se fait via npm :

npm install -g @understudy-ai/understudy
understudy wizard

L'artefact de compétence publié de la démonstration de présentation est disponible à examples/published-skills/taught-person-photo-cutout-bc88ec/SKILL.md pour inspection.

À qui cela s'adresse

Développeurs qui travaillent sur plusieurs applications de bureau et souhaitent automatiser des tâches répétitives sans construire d'intégrations personnalisées ou de créateurs de flux de travail.

📖 Read the full source: HN AI Agents