Agent-Desktop: 53 CLI-Befehle für strukt. Desktop-Automatisierung

Agent-desktop ist ein natives Desktop-Automatisierungs-CLI, erstellt mit Rust, entwickelt für KI-Agenten, die Desktop-Anwendungen programmatisch steuern müssen. Statt des üblichen Screenshot-basierten Ansatzes (Screenshot machen, Pixelkoordinaten vorhersagen, klicken, wiederholen) interagiert es über Betriebssystem-Barrierefreiheitsbäume – dieselben strukturierten Daten, die Screenreader verwenden. Das bedeutet, das Modell sieht Elementrollen, Namen, Hierarchie und Status direkt, was Interaktionen schneller, günstiger und robuster gegenüber UI-Änderungen macht.

Hauptmerkmale

Einzelne Rust-Binärdatei (~15 MB), keine Laufzeitabhängigkeiten
53 Befehle für Beobachtung, Interaktion, Tastatur, Maus, Benachrichtigungen, Zwischenablage und Fensterverwaltung
JSON-Ausgabe – maschinenlesbar mit Fehlercodes und Wiederherstellungshinweisen
Barrierefreiheit-zuerst-Aktivierungskette: verwendet reine Barrierefreiheits-API-Strategien, bevor auf Mausereignisse zurückgegriffen wird
Deterministische Elementreferenzen (z. B. @e1, @e2) mit optimistischer Wiederidentifikation bei UI-Änderungen
Progressives Skeleton-Traversal: flacher Baum zuerst (Tiefe ~3), annotiert mit children_count, dann Detailabfrage bestimmter Bereiche
Unterstützung für Fenster, Menüs, Sheets, Popover, Alarme und Benachrichtigungen
Spezielle Handhabung von Chromium/Electron-Barrierefreiheitsbäumen zur Rauschreduzierung
C-ABI über cdylib – kann direkt aus Python, Swift, Go, Node, Ruby oder C geladen werden, ohne pro Befehl einen Subprozess zu starten

Typischer Arbeitsablauf

Für dichte Apps wie Slack oder VS Code verwenden Sie progressives Skeleton-Traversal, um die Token-Nutzung zu minimieren:

# 1. Flacher Überblick – Tiefe-3-Karte, abgeschnittene Container zeigen children_count agent-desktop snapshot --skeleton --app Slack -i --compact 2. Detailabfrage eines interessanten Bereichs (benannte Container erhalten Referenzen) agent-desktop snapshot --root @e3 -i --compact 3. Aktion auf ein in der Detailabfrage gefundenes Element agent-desktop click @e12 4. Erneute Detailabfrage desselben Bereichs, um Statusänderung zu überprüfen

agent-desktop snapshot --root @e3 -i --compact

Für einfachere Apps reicht ein vollständiger Snapshot: agent-desktop snapshot --app Finder -i.

Installation

npm install -g agent-desktop
# Oder mit npx: npx agent-desktop snapshot --app Finder -i
# Aus dem Quellcode: cargo build --release

Leistungsstatistiken

In der Praxis reduzierte der progressive Skeleton-Ansatz die Token-Nutzung um 78 % bis 96 % im Vergleich zu vollständigen Baumdumpings in Electron-Apps wie Slack, VS Code und Notion. Beispielsweise kann der vollständige Barrierefreiheitsbaum von Slack über 50.000 Token umfassen – unpraktisch für die meisten LLM-Kontexte.

Für wen es gedacht ist

Entwickler, die Desktop-Agenten, interne Automatisierungswerkzeuge oder Forschungsprototypen erstellen und die Kosten und Fragilität von Screenshot-basierten Steuerungsschleifen vermeiden möchten.

📖 Vollständige Quelle lesen: HN AI Agents

Agent-Desktop: Strukturierte Desktop-Automatisierung über OS-Zugänglichkeitsbäume

Hauptmerkmale

Typischer Arbeitsablauf

2. Detailabfrage eines interessanten Bereichs (benannte Container erhalten Referenzen)

3. Aktion auf ein in der Detailabfrage gefundenes Element

4. Erneute Detailabfrage desselben Bereichs, um Statusänderung zu überprüfen

Installation

Leistungsstatistiken

Für wen es gedacht ist

👀 Siehe auch

SynapsCAD: Open-Source-Desktop-App für OpenSCAD mit Claude-AI-Integration

Lokales Speichersystem für KI-Codierungstools extrahiert über 2.600 Fakten aus Konversationsprotokollen

Lokales KI-Bildkritik-Tool nutzt Ollama Vision-Modelle für Feedback

Entwickler baut MCP-Server für Claude-WhatsApp-Integration und teilt Herausforderungen