Unterstudie: Lokal-First Desktop-Agent lernt Aufgaben per Vorführung

Was Understudy macht

Understudy ist ein lehrbarer Desktop-Agent, der Ihren Computer wie ein menschlicher Kollege bedient – er verwaltet GUI, Browser, Shell, Dateisystem und Messaging-Tools in einer lokalen Laufzeitumgebung. Die Kerninnovation ist das Lehren durch Demonstration: Sie führen eine Aufgabe einmal aus, der Agent zeichnet Bildschirmvideo plus semantische Ereignisse auf, extrahiert die Absicht (nicht nur Koordinaten) und verwandelt sie in eine wiederverwendbare Fähigkeit.

Aktueller Implementierungsstatus

Das System ist als fünf Ebenen konzipiert, mit aktuellem Implementierungsstatus:

Ebene 1 (Software nativ bedienen): Heute auf macOS implementiert. Bedient jede macOS-Desktop-App mit 13 Tools + Screenshot-Grundierung + native Eingabe.
Ebene 2 (Aus Demonstrationen lernen): Heute implementiert und nutzbar. Benutzer zeigt eine Aufgabe einmal – Agent extrahiert Absicht, validiert, lernt.
Ebene 3 (Kristallisierter Speicher): Teilweise implementiert. Agent sammelt Erfahrung aus täglicher Nutzung, verfestigt erfolgreiche Pfade.
Ebene 4 (Routenoptimierung): Teilweise implementiert. Automatisch schnellere Ausführungsrouten entdecken und darauf upgraden.
Ebene 5 (Proaktive Autonomie): Immer noch die langfristige Richtung. In seinem eigenen Arbeitsbereich bemerken und handeln, ohne den Benutzer zu stören.

Technische Fähigkeiten

Understudy ist eine einheitliche Desktop-Laufzeitumgebung, die jede Ausführungsroute in einer Agentenschleife, einer Sitzung, einer Policy-Pipeline mischt:

GUI: 13 Tools + Screenshot-Grundierung + native Eingabe für jede macOS-Desktop-App
Browser: Playwright verwaltet + Chrome-Erweiterungs-Relais für jede Website mit Login-Sitzungen
Shell: bash-Tool mit vollem lokalen Zugriff für CLI-Tools, Skripte, Dateisystem
Web: web_search + web_fetch für Echtzeit-Informationsabruf
Speicher: Semantischer Speicher über Sitzungen hinweg für persistente Kontexte und Präferenzen
Messaging: 8 Kanal-Unterstützung

Wie es in der Praxis funktioniert

Im Demo-Video bringt der Erfinder Understudy bei: Google-Bildersuche → Foto herunterladen → Hintergrund in Pixelmator Pro entfernen → exportieren → via Telegram senden. Dann bittet er es, dasselbe für Elon Musk zu tun. Die Wiederholung ist kein spröder Makro – die veröffentlichte Fähigkeit speichert Absichtsschritte, Routenoptionen und GUI-Hinweise nur als Fallback. Sie kann schnellere Routen bevorzugen, wenn verfügbar, statt jeden GUI-Schritt zu wiederholen.

Installation und Einrichtung

Aktuelle Plattform: Nur macOS. Installation erfolgt via npm:

npm install -g @understudy-ai/understudy
understudy wizard

Das veröffentlichte Fähigkeits-Artefakt aus der Showcase-Demo ist zur Inspektion verfügbar unter examples/published-skills/taught-person-photo-cutout-bc88ec/SKILL.md.

Für wen es gedacht ist

Entwickler, die über mehrere Desktop-Anwendungen hinweg arbeiten und repetitive Aufgaben automatisieren möchten, ohne benutzerdefinierte Integrationen oder Workflow-Builder zu erstellen.

📖 Read the full source: HN AI Agents