Unterstudie: Ein lehrbarer Desktop-Agent, der Aufgaben durch Vorführung lernt

Was Understudy macht
Understudy ist ein lehrbarer Desktop-Agent, der Ihren Computer wie ein menschlicher Kollege bedient – er verwaltet GUI, Browser, Shell, Dateisystem und Messaging-Tools in einer lokalen Laufzeitumgebung. Die Kerninnovation ist das Lehren durch Demonstration: Sie führen eine Aufgabe einmal aus, der Agent zeichnet Bildschirmvideo plus semantische Ereignisse auf, extrahiert die Absicht (nicht nur Koordinaten) und verwandelt sie in eine wiederverwendbare Fähigkeit.
Aktueller Implementierungsstatus
Das System ist als fünf Ebenen konzipiert, mit aktuellem Implementierungsstatus:
- Ebene 1 (Software nativ bedienen): Heute auf macOS implementiert. Bedient jede macOS-Desktop-App mit 13 Tools + Screenshot-Grundierung + native Eingabe.
- Ebene 2 (Aus Demonstrationen lernen): Heute implementiert und nutzbar. Benutzer zeigt eine Aufgabe einmal – Agent extrahiert Absicht, validiert, lernt.
- Ebene 3 (Kristallisierter Speicher): Teilweise implementiert. Agent sammelt Erfahrung aus täglicher Nutzung, verfestigt erfolgreiche Pfade.
- Ebene 4 (Routenoptimierung): Teilweise implementiert. Automatisch schnellere Ausführungsrouten entdecken und darauf upgraden.
- Ebene 5 (Proaktive Autonomie): Immer noch die langfristige Richtung. In seinem eigenen Arbeitsbereich bemerken und handeln, ohne den Benutzer zu stören.
Technische Fähigkeiten
Understudy ist eine einheitliche Desktop-Laufzeitumgebung, die jede Ausführungsroute in einer Agentenschleife, einer Sitzung, einer Policy-Pipeline mischt:
- GUI: 13 Tools + Screenshot-Grundierung + native Eingabe für jede macOS-Desktop-App
- Browser: Playwright verwaltet + Chrome-Erweiterungs-Relais für jede Website mit Login-Sitzungen
- Shell: bash-Tool mit vollem lokalen Zugriff für CLI-Tools, Skripte, Dateisystem
- Web: web_search + web_fetch für Echtzeit-Informationsabruf
- Speicher: Semantischer Speicher über Sitzungen hinweg für persistente Kontexte und Präferenzen
- Messaging: 8 Kanal-Unterstützung
Wie es in der Praxis funktioniert
Im Demo-Video bringt der Erfinder Understudy bei: Google-Bildersuche → Foto herunterladen → Hintergrund in Pixelmator Pro entfernen → exportieren → via Telegram senden. Dann bittet er es, dasselbe für Elon Musk zu tun. Die Wiederholung ist kein spröder Makro – die veröffentlichte Fähigkeit speichert Absichtsschritte, Routenoptionen und GUI-Hinweise nur als Fallback. Sie kann schnellere Routen bevorzugen, wenn verfügbar, statt jeden GUI-Schritt zu wiederholen.
Installation und Einrichtung
Aktuelle Plattform: Nur macOS. Installation erfolgt via npm:
npm install -g @understudy-ai/understudy
understudy wizard
Das veröffentlichte Fähigkeits-Artefakt aus der Showcase-Demo ist zur Inspektion verfügbar unter examples/published-skills/taught-person-photo-cutout-bc88ec/SKILL.md.
Für wen es gedacht ist
Entwickler, die über mehrere Desktop-Anwendungen hinweg arbeiten und repetitive Aufgaben automatisieren möchten, ohne benutzerdefinierte Integrationen oder Workflow-Builder zu erstellen.
📖 Read the full source: HN AI Agents
👀 Siehe auch

CC-Wiki: Claude Code-Sitzungen in eine teilbare Quartz-Wissensdatenbank verwandeln
CC-Wiki konvertiert deinen ~/.claude-Sitzungsverlauf in eine Wissensdatenbank auf Basis von Quartz. Ein Befehl installiert es; /cc-wiki in einer Claude Code-Sitzung verpackt die Konversation.

Lore: MCP-Server, der KI-Agenten-Sitzungsverlauf zwischen Tools teilt
Lore ist ein MCP-Server, der KI-Agentensitzungen in einem lokalen SQLite-Speicher indiziert und jedem Agenten – unabhängig vom Tool – den Zugriff auf die Sitzungshistorie eines anderen ermöglicht. Neue Clientsitzungen ohne gemeinsamen Kontext, aber Agenten können auf Anfrage vergangene Gespräche abrufen.

Queuelo: Eine schlanke Genehmigungs-API für LLM-Agenten
Queuelo ist eine einfache API-Schicht, die es LLM-Agenten ermöglicht, vor irreversiblen Aktionen zu pausieren. Agenten senden POST-Anfragen für Aktionen, Sie werden benachrichtigt, um diese zu genehmigen oder abzulehnen, und der Agent erhält die Antwort per Webhook.

Open-Source-Struktur-Halluzinationsprüfer für KI-Agenten-Pipelines
Ein neues Open-Source-Tool bietet vier Unterdrücker, um strukturelle Fehler in KI-Agenten-Pipelines zu erkennen, darunter Grounding-Erzwingung, Prompt-Injection-Erkennung, JSON-Validierung und Tool-Antwort-Verifizierung. Verfügbar als REST-API und MCP-Server mit einem kostenlosen Kontingent von 500 Anfragen/Monat.