Agent-Desktop: Automatización de Escritorio Estructurada mediante Árboles de Accesibilidad del SO

Agent-desktop es una CLI de automatización de escritorio nativa construida con Rust, diseñada para agentes de IA que necesitan controlar aplicaciones de escritorio de forma programática. En lugar del enfoque común basado en capturas de pantalla (tomar captura, predecir coordenadas de píxeles, hacer clic, repetir), interactúa a través de los árboles de accesibilidad del sistema operativo: los mismos datos estructurados que usan los lectores de pantalla. Esto significa que el modelo ve directamente los roles, nombres, jerarquía y estado de los elementos, haciendo las interacciones más rápidas, económicas y robustas frente a cambios en la interfaz.
Características clave
- Binario único de Rust (~15 MB), sin dependencias en tiempo de ejecución
- 53 comandos que cubren observación, interacción, teclado, ratón, notificaciones, portapapeles y gestión de ventanas
- Salida JSON: legible por máquina con códigos de error y sugerencias de recuperación
- Cadena de activación basada en accesibilidad: usa estrategias de API de accesibilidad puras antes de recurrir a eventos del ratón
- Referencias deterministas a elementos (por ejemplo,
@e1,@e2) con reidentificación optimista ante cambios en la interfaz - Recorrido progresivo del esqueleto: árbol superficial primero (profundidad ~3), anotado con
children_count, luego profundización en regiones específicas - Soporte para ventanas, menús, hojas, popovers, alertas y notificaciones
- Manejo especial para árboles de accesibilidad de Chromium/Electron para reducir el ruido
- C ABI mediante cdylib: se puede cargar directamente desde Python, Swift, Go, Node, Ruby o C sin invocar un shell por comando
Flujo de trabajo típico
Para aplicaciones densas como Slack o VS Code, usa el recorrido progresivo del esqueleto para minimizar el uso de tokens:
# 1. Vista general superficial — mapa de profundidad 3, contenedores truncados muestran children_count
agent-desktop snapshot --skeleton --app Slack -i --compact
2. Profundizar en una región de interés (los contenedores nombrados obtienen referencias)
agent-desktop snapshot --root @e3 -i --compact
3. Actuar sobre un elemento encontrado en la profundización
agent-desktop click @e12
4. Volver a profundizar en la misma región para verificar el cambio de estado
agent-desktop snapshot --root @e3 -i --compact
Para aplicaciones más simples, una captura completa funciona bien: agent-desktop snapshot --app Finder -i.
Instalación
npm install -g agent-desktop
# O usa npx: npx agent-desktop snapshot --app Finder -i
# Desde el código fuente: cargo build --release
Estadísticas de rendimiento
En la práctica, el enfoque de esqueleto progresivo redujo el uso de tokens entre un 78 % y un 96 % en comparación con los volcados de árbol completos en aplicaciones Electron como Slack, VS Code y Notion. Por ejemplo, el árbol de accesibilidad completo de Slack puede superar los 50 000 tokens, lo que resulta poco práctico para la mayoría de los contextos de LLM.
Para quién es
Desarrolladores que construyen agentes de escritorio, herramientas internas de automatización o prototipos de investigación que quieren evitar el costo y la fragilidad de los bucles de control basados en capturas de pantalla.
📖 Lee la fuente completa: HN AI Agents
👀 Ver también

Automatiza las reuniones diarias en podcasts personales de Spotify con OpenClaw y la CLI de Save to Spotify
OpenClaw se ejecuta diariamente a las 7 a.m., extrae hilos de Slack + notificaciones de GitHub + calendario, los resume en mp3 y los sube como un episodio privado mediante la CLI Save to Spotify. Funciona en Free y Premium.

ClawControl v1.7.1 soluciona problemas de uso diario en el cliente OpenClaw.
ClawControl v1.7.1 es un cliente de código abierto para OpenClaw disponible en Windows, Mac, Linux, iOS y Android. Esta versión se centra en solucionar los problemas de '¿por qué está haciendo eso?' que se encuentran durante el uso diario de OpenClaw.

Biblioteca de Flujos de Trabajo Claude: 10 Flujos de Trabajo de IA Completos para Usuarios No Técnicos
Un repositorio gratuito de GitHub ofrece 10 flujos de trabajo completos de IA para usuarios de Claude sin conocimientos técnicos, incluyendo sistemas de estudio, investigación, escritura, negocios, creación de contenido, toma de decisiones, aprendizaje, búsqueda de empleo, productividad y planificación de vida.

Stage CLI: Cambios generados por IA local revisados como capítulos lógicos
Stage CLI agrupa tu diff local en capítulos lógicos (a través de cualquier agente de IA) y abre una interfaz de navegador para una revisión paso a paso. Instálalo con 'npm install -g stagereview' y agrega la habilidad con 'npx skills add ReviewStage/stage-cli'.