Doublure : Un Agent de Bureau Enseignable Qui Apprend les Tâches par Démonstration

✍️ OpenClawRadar📅 Publié: March 13, 2026🔗 Source
Doublure : Un Agent de Bureau Enseignable Qui Apprend les Tâches par Démonstration
Ad

Ce que fait Understudy

Understudy est un agent de bureau enseignable qui opère votre ordinateur comme un collègue humain — gérant l'interface graphique, le navigateur, le shell, le système de fichiers et les outils de messagerie dans un seul environnement d'exécution local. L'innovation principale est l'apprentissage par démonstration : vous effectuez une tâche une fois, l'agent enregistre une vidéo d'écran ainsi que des événements sémantiques, extrait l'intention (pas seulement les coordonnées), et la transforme en une compétence réutilisable.

État actuel de l'implémentation

Le système est conçu en cinq couches, avec l'état d'implémentation actuel :

  • Couche 1 (Opérer les logiciels nativement) : Implémentée aujourd'hui sur macOS. Opère toute application de bureau macOS en utilisant 13 outils + ancrage par capture d'écran + saisie native.
  • Couche 2 (Apprendre à partir de démonstrations) : Implémentée et utilisable aujourd'hui. L'utilisateur montre une tâche une fois — l'agent extrait l'intention, valide, apprend.
  • Couche 3 (Mémoire cristallisée) : Partiellement implémentée. L'agent accumule de l'expérience grâce à l'utilisation quotidienne, consolide les chemins réussis.
  • Couche 4 (Optimisation des itinéraires) : Partiellement implémentée. Découvre et améliore automatiquement vers des chemins d'exécution plus rapides.
  • Couche 5 (Autonomie proactive) : Toujours la direction à long terme. Remarquer et agir dans son propre espace de travail sans perturber l'utilisateur.
Ad

Capacités techniques

Understudy est un environnement d'exécution de bureau unifié qui mélange chaque chemin d'exécution dans une seule boucle d'agent, une seule session, un seul pipeline de politique :

  • Interface graphique : 13 outils + ancrage par capture d'écran + saisie native pour toute application de bureau macOS
  • Navigateur : Playwright géré + relais d'extension Chrome pour tout site web avec sessions de connexion
  • Shell : outil bash avec accès local complet pour les outils CLI, scripts, système de fichiers
  • Web : web_search + web_fetch pour la récupération d'informations en temps réel
  • Mémoire : Mémoire sémantique entre les sessions pour un contexte et des préférences persistants
  • Messagerie : Support de 8 canaux

Comment cela fonctionne en pratique

Dans la vidéo de démonstration, le créateur apprend à Understudy à : Rechercher une image sur Google → télécharger une photo → supprimer l'arrière-plan dans Pixelmator Pro → exporter → envoyer via Telegram. Puis lui demande de faire la même chose pour Elon Musk. La relecture n'est pas une macro fragile — la compétence publiée stocke les étapes d'intention, les options d'itinéraire, et les indices d'interface graphique uniquement comme solution de secours. Elle peut préférer des chemins plus rapides lorsqu'ils sont disponibles au lieu de répéter chaque étape d'interface graphique.

Installation et configuration

Plateforme actuelle : macOS uniquement. L'installation se fait via npm :

npm install -g @understudy-ai/understudy
understudy wizard

L'artefact de compétence publié de la démonstration de présentation est disponible à examples/published-skills/taught-person-photo-cutout-bc88ec/SKILL.md pour inspection.

À qui cela s'adresse

Développeurs qui travaillent sur plusieurs applications de bureau et souhaitent automatiser des tâches répétitives sans construire d'intégrations personnalisées ou de créateurs de flux de travail.

📖 Read the full source: HN AI Agents

Ad

👀 See Also

Mnemos : Couche de mémoire locale et open source pour agents de codage
Tools

Mnemos : Couche de mémoire locale et open source pour agents de codage

Mnemos est une couche de mémoire locale pour les flux de travail d'agents de codage individuels qui résout les défaillances courantes des systèmes de mémoire comme la contamination de portée, les faits obsolètes et la croissance illimitée des transcriptions. La version bêta publique inclut des profils de démarrage SQLite, la prise en charge MCP pour Claude Code/Desktop, et un pipeline biomimétique avec des composants comme SurprisalGate et MutableRAG.

OpenClawRadar
ClaudeMeter : Application macOS Open-Source pour la Barre de Menu, Suivi en Temps Réel de l'Utilisation de Claude
Tools

ClaudeMeter : Application macOS Open-Source pour la Barre de Menu, Suivi en Temps Réel de l'Utilisation de Claude

ClaudeMeter est une application gratuite et open-source pour la barre de menus macOS destinée aux abonnés Claude Max, qui affiche les pourcentages d'utilisation par session et par semaine, des minuteries de réinitialisation et des indicateurs de rythme, sans interrompre le flux de travail. L'application entière a été construite en utilisant Claude (Claude Code/Opus) pour le code Swift, un backend Supabase et des Edge Functions.

OpenClawRadar
23 Compétences d'Agent pour le Développement iOS 26 avec SwiftUI et Swift 6.2
Tools

23 Compétences d'Agent pour le Développement iOS 26 avec SwiftUI et Swift 6.2

Un développeur a créé 23 compétences d'agent ciblant iOS 26+ et Swift 6.2 pour résoudre les problèmes d'hallucination avec les API obsolètes et les modèles dépassés. Les compétences couvrent SwiftUI, SwiftData, StoreKit 2, les notifications push, la mise en réseau, la concurrence, l'accessibilité, la localisation, WidgetKit, MapKit, et plus encore.

OpenClawRadar
Yavio : SDK d'analyse produit open-source pour les applications MCP
Tools

Yavio : SDK d'analyse produit open-source pour les applications MCP

Yavio est un SDK d'analyse produit open-source pour MCP et les applications MCP qui capture automatiquement les appels d'outils, les erreurs et les lectures de ressources avec un seul appel de fonction. Le projet sous licence MIT fournit un tableau de bord avec des ventilations par outil, des entonnoirs, de la rétention et un suivi des erreurs.

OpenClawRadar