Agent-Desktop: Strukturierte Desktop-Automatisierung über OS-Zugänglichkeitsbäume

Agent-desktop ist ein natives Desktop-Automatisierungs-CLI, erstellt mit Rust, entwickelt für KI-Agenten, die Desktop-Anwendungen programmatisch steuern müssen. Statt des üblichen Screenshot-basierten Ansatzes (Screenshot machen, Pixelkoordinaten vorhersagen, klicken, wiederholen) interagiert es über Betriebssystem-Barrierefreiheitsbäume – dieselben strukturierten Daten, die Screenreader verwenden. Das bedeutet, das Modell sieht Elementrollen, Namen, Hierarchie und Status direkt, was Interaktionen schneller, günstiger und robuster gegenüber UI-Änderungen macht.
Hauptmerkmale
- Einzelne Rust-Binärdatei (~15 MB), keine Laufzeitabhängigkeiten
- 53 Befehle für Beobachtung, Interaktion, Tastatur, Maus, Benachrichtigungen, Zwischenablage und Fensterverwaltung
- JSON-Ausgabe – maschinenlesbar mit Fehlercodes und Wiederherstellungshinweisen
- Barrierefreiheit-zuerst-Aktivierungskette: verwendet reine Barrierefreiheits-API-Strategien, bevor auf Mausereignisse zurückgegriffen wird
- Deterministische Elementreferenzen (z. B.
@e1,@e2) mit optimistischer Wiederidentifikation bei UI-Änderungen - Progressives Skeleton-Traversal: flacher Baum zuerst (Tiefe ~3), annotiert mit
children_count, dann Detailabfrage bestimmter Bereiche - Unterstützung für Fenster, Menüs, Sheets, Popover, Alarme und Benachrichtigungen
- Spezielle Handhabung von Chromium/Electron-Barrierefreiheitsbäumen zur Rauschreduzierung
- C-ABI über cdylib – kann direkt aus Python, Swift, Go, Node, Ruby oder C geladen werden, ohne pro Befehl einen Subprozess zu starten
Typischer Arbeitsablauf
Für dichte Apps wie Slack oder VS Code verwenden Sie progressives Skeleton-Traversal, um die Token-Nutzung zu minimieren:
# 1. Flacher Überblick – Tiefe-3-Karte, abgeschnittene Container zeigen children_count
agent-desktop snapshot --skeleton --app Slack -i --compact
2. Detailabfrage eines interessanten Bereichs (benannte Container erhalten Referenzen)
agent-desktop snapshot --root @e3 -i --compact
3. Aktion auf ein in der Detailabfrage gefundenes Element
agent-desktop click @e12
4. Erneute Detailabfrage desselben Bereichs, um Statusänderung zu überprüfen
agent-desktop snapshot --root @e3 -i --compact
Für einfachere Apps reicht ein vollständiger Snapshot: agent-desktop snapshot --app Finder -i.
Installation
npm install -g agent-desktop
# Oder mit npx: npx agent-desktop snapshot --app Finder -i
# Aus dem Quellcode: cargo build --release
Leistungsstatistiken
In der Praxis reduzierte der progressive Skeleton-Ansatz die Token-Nutzung um 78 % bis 96 % im Vergleich zu vollständigen Baumdumpings in Electron-Apps wie Slack, VS Code und Notion. Beispielsweise kann der vollständige Barrierefreiheitsbaum von Slack über 50.000 Token umfassen – unpraktisch für die meisten LLM-Kontexte.
Für wen es gedacht ist
Entwickler, die Desktop-Agenten, interne Automatisierungswerkzeuge oder Forschungsprototypen erstellen und die Kosten und Fragilität von Screenshot-basierten Steuerungsschleifen vermeiden möchten.
📖 Vollständige Quelle lesen: HN AI Agents
👀 Siehe auch

SynapsCAD: Open-Source-Desktop-App für OpenSCAD mit Claude-AI-Integration
SynapsCAD ist eine Open-Source-Desktop-Anwendung, die einen OpenSCAD-Code-Editor, einen Echtzeit-3D-Viewport und einen KI-Assistenten kombiniert. Vollständig in Rust mit Bevy 0.15 und egui entwickelt, unterstützt sie die Claude-API-Integration für die 3D-CAD-Programmierung mit natürlicher Sprache.

Lokales Speichersystem für KI-Codierungstools extrahiert über 2.600 Fakten aus Konversationsprotokollen
Ein Entwickler hat eine lokale Speicherschicht erstellt, die Konversationsprotokolle von Claude Code, Factory.ai und Codex CLI verarbeitet, strukturierte Fakten mithilfe eines lokalen LLM extrahiert und Kontext automatisch in neue Sitzungen einfügt. Nach monatelangem Einsatz wurden über 13.000 Nachrichten indiziert und mehr als 2.600 Fakten extrahiert.

Lokales KI-Bildkritik-Tool nutzt Ollama Vision-Modelle für Feedback
Ein Entwickler hat eine kostenlose Desktop-Anwendung erstellt, die KI-generierte Bilder lokal mit Ollama-Vision-Modellen analysiert. Das Tool liefert strukturierte Feedback-Berichte mit Verbesserungsvorschlägen und Prompt-Optimierungen.

Entwickler baut MCP-Server für Claude-WhatsApp-Integration und teilt Herausforderungen
Ein Entwickler hat einen MCP-Server gebaut, um Claude Zugang zu echten WhatsApp-Konversationen zu ermöglichen, und stellte fest, dass die Verwaltung des Konversationskontextes schwieriger als erwartet war und eine Datenbank erforderte, um Konversationen zu verfolgen.