Agent-Desktop : 53 commandes CLI pour automatiser le bureau (Rust)

Agent-desktop est un CLI d'automatisation de bureau natif, écrit en Rust, conçu pour les agents IA qui doivent contrôler des applications de bureau par programmation. Au lieu de l'approche courante basée sur les captures d'écran (prendre une capture, prédire les coordonnées des pixels, cliquer, répéter), il interagit via les arbres d'accessibilité du système d'exploitation — les mêmes données structurées que les lecteurs d'écran utilisent. Ainsi, le modèle voit directement les rôles, noms, hiérarchie et état des éléments, rendant les interactions plus rapides, moins coûteuses et plus robustes face aux changements d'interface.

Fonctionnalités clés

Binaire Rust unique (~15 Mo), aucune dépendance d'exécution
53 commandes couvrant l'observation, l'interaction, le clavier, la souris, les notifications, le presse-papiers et la gestion des fenêtres
Sortie JSON — lisible par machine avec codes d'erreur et indices de récupération
Chaîne d'activation priorisant l'accessibilité : utilise d'abord des stratégies basées sur les API d'accessibilité pures avant de recourir aux événements souris
Références déterministes aux éléments (ex. @e1, @e2) avec ré-identification optimiste en cas de changements d'interface
Parcours squelettique progressif : arbre peu profond d'abord (profondeur ~3), annoté avec children_count, puis exploration ciblée dans des régions spécifiques
Prise en charge des fenêtres, menus, feuilles, popovers, alertes et notifications
Traitement spécial des arbres d'accessibilité Chromium/Electron pour réduire le bruit
ABI C via cdylib — peut être chargé directement depuis Python, Swift, Go, Node, Ruby ou C sans lancer un processus par commande

Flux de travail typique

Pour les applications denses comme Slack ou VS Code, utilisez le parcours squelettique progressif pour minimiser l'utilisation de tokens :

# 1. Aperçu superficiel — carte de profondeur 3, conteneurs tronqués avec children_count agent-desktop snapshot --skeleton --app Slack -i --compact 2. Exploration d'une région d'intérêt (les conteneurs nommés obtiennent des références) agent-desktop snapshot --root @e3 -i --compact 3. Action sur un élément trouvé lors de l'exploration agent-desktop click @e12 4. Nouvelle exploration de la même région pour vérifier le changement d'état

agent-desktop snapshot --root @e3 -i --compact

Pour les applications plus simples, un instantané complet suffit : agent-desktop snapshot --app Finder -i.

Installation

npm install -g agent-desktop
# Ou utilisez npx : npx agent-desktop snapshot --app Finder -i
# Depuis les sources : cargo build --release

Statistiques de performance

En pratique, l'approche squelettique progressive a réduit l'utilisation de tokens de 78 % à 96 % par rapport aux vidages complets de l'arbre dans les applications Electron comme Slack, VS Code et Notion. Par exemple, l'arbre d'accessibilité complet de Slack peut dépasser 50 000 tokens — ce qui est impraticable pour la plupart des contextes LLM.

À qui cela s'adresse

Développeurs créant des agents de bureau, des outils d'automatisation internes ou des prototypes de recherche qui souhaitent éviter le coût et la fragilité des boucles de contrôle basées sur des captures d'écran.

📖 Lire la source complète : HN AI Agents

Agent-Desktop : Automatisation structurée du bureau via les arbres d'accessibilité du système d'exploitation

Fonctionnalités clés

Flux de travail typique

2. Exploration d'une région d'intérêt (les conteneurs nommés obtiennent des références)

3. Action sur un élément trouvé lors de l'exploration

4. Nouvelle exploration de la même région pour vérifier le changement d'état

Installation

Statistiques de performance

À qui cela s'adresse

👀 See Also

NexQuant : Moteur de cache KV 3 bits natif Rust pour déploiement en périphérie

ThumbGate met en œuvre le modèle de harnais d'agent en langage naturel de Tsinghua pour la sécurité de l'IA

Claude Usage Monitor : Application gratuite pour macOS dans la barre de menu pour suivre les limites de Claude.ai

DebugBase : Une Base de Connaissances Collective des Erreurs pour les Agents de Codage IA via MCP