Unterstudie: Ein lehrbarer Desktop-Agent, der Aufgaben durch Vorführung lernt

✍️ OpenClawRadar📅 Veröffentlicht: 13. März 2026🔗 Source
Unterstudie: Ein lehrbarer Desktop-Agent, der Aufgaben durch Vorführung lernt
Ad

Was Understudy macht

Understudy ist ein lehrbarer Desktop-Agent, der Ihren Computer wie ein menschlicher Kollege bedient – er verwaltet GUI, Browser, Shell, Dateisystem und Messaging-Tools in einer lokalen Laufzeitumgebung. Die Kerninnovation ist das Lehren durch Demonstration: Sie führen eine Aufgabe einmal aus, der Agent zeichnet Bildschirmvideo plus semantische Ereignisse auf, extrahiert die Absicht (nicht nur Koordinaten) und verwandelt sie in eine wiederverwendbare Fähigkeit.

Aktueller Implementierungsstatus

Das System ist als fünf Ebenen konzipiert, mit aktuellem Implementierungsstatus:

  • Ebene 1 (Software nativ bedienen): Heute auf macOS implementiert. Bedient jede macOS-Desktop-App mit 13 Tools + Screenshot-Grundierung + native Eingabe.
  • Ebene 2 (Aus Demonstrationen lernen): Heute implementiert und nutzbar. Benutzer zeigt eine Aufgabe einmal – Agent extrahiert Absicht, validiert, lernt.
  • Ebene 3 (Kristallisierter Speicher): Teilweise implementiert. Agent sammelt Erfahrung aus täglicher Nutzung, verfestigt erfolgreiche Pfade.
  • Ebene 4 (Routenoptimierung): Teilweise implementiert. Automatisch schnellere Ausführungsrouten entdecken und darauf upgraden.
  • Ebene 5 (Proaktive Autonomie): Immer noch die langfristige Richtung. In seinem eigenen Arbeitsbereich bemerken und handeln, ohne den Benutzer zu stören.
Ad

Technische Fähigkeiten

Understudy ist eine einheitliche Desktop-Laufzeitumgebung, die jede Ausführungsroute in einer Agentenschleife, einer Sitzung, einer Policy-Pipeline mischt:

  • GUI: 13 Tools + Screenshot-Grundierung + native Eingabe für jede macOS-Desktop-App
  • Browser: Playwright verwaltet + Chrome-Erweiterungs-Relais für jede Website mit Login-Sitzungen
  • Shell: bash-Tool mit vollem lokalen Zugriff für CLI-Tools, Skripte, Dateisystem
  • Web: web_search + web_fetch für Echtzeit-Informationsabruf
  • Speicher: Semantischer Speicher über Sitzungen hinweg für persistente Kontexte und Präferenzen
  • Messaging: 8 Kanal-Unterstützung

Wie es in der Praxis funktioniert

Im Demo-Video bringt der Erfinder Understudy bei: Google-Bildersuche → Foto herunterladen → Hintergrund in Pixelmator Pro entfernen → exportieren → via Telegram senden. Dann bittet er es, dasselbe für Elon Musk zu tun. Die Wiederholung ist kein spröder Makro – die veröffentlichte Fähigkeit speichert Absichtsschritte, Routenoptionen und GUI-Hinweise nur als Fallback. Sie kann schnellere Routen bevorzugen, wenn verfügbar, statt jeden GUI-Schritt zu wiederholen.

Installation und Einrichtung

Aktuelle Plattform: Nur macOS. Installation erfolgt via npm:

npm install -g @understudy-ai/understudy
understudy wizard

Das veröffentlichte Fähigkeits-Artefakt aus der Showcase-Demo ist zur Inspektion verfügbar unter examples/published-skills/taught-person-photo-cutout-bc88ec/SKILL.md.

Für wen es gedacht ist

Entwickler, die über mehrere Desktop-Anwendungen hinweg arbeiten und repetitive Aufgaben automatisieren möchten, ohne benutzerdefinierte Integrationen oder Workflow-Builder zu erstellen.

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch

CC-Wiki: Claude Code-Sitzungen in eine teilbare Quartz-Wissensdatenbank verwandeln
Werkzeuge

CC-Wiki: Claude Code-Sitzungen in eine teilbare Quartz-Wissensdatenbank verwandeln

CC-Wiki konvertiert deinen ~/.claude-Sitzungsverlauf in eine Wissensdatenbank auf Basis von Quartz. Ein Befehl installiert es; /cc-wiki in einer Claude Code-Sitzung verpackt die Konversation.

OpenClawRadar
Lore: MCP-Server, der KI-Agenten-Sitzungsverlauf zwischen Tools teilt
Werkzeuge

Lore: MCP-Server, der KI-Agenten-Sitzungsverlauf zwischen Tools teilt

Lore ist ein MCP-Server, der KI-Agentensitzungen in einem lokalen SQLite-Speicher indiziert und jedem Agenten – unabhängig vom Tool – den Zugriff auf die Sitzungshistorie eines anderen ermöglicht. Neue Clientsitzungen ohne gemeinsamen Kontext, aber Agenten können auf Anfrage vergangene Gespräche abrufen.

OpenClawRadar
Queuelo: Eine schlanke Genehmigungs-API für LLM-Agenten
Werkzeuge

Queuelo: Eine schlanke Genehmigungs-API für LLM-Agenten

Queuelo ist eine einfache API-Schicht, die es LLM-Agenten ermöglicht, vor irreversiblen Aktionen zu pausieren. Agenten senden POST-Anfragen für Aktionen, Sie werden benachrichtigt, um diese zu genehmigen oder abzulehnen, und der Agent erhält die Antwort per Webhook.

OpenClawRadar
Open-Source-Struktur-Halluzinationsprüfer für KI-Agenten-Pipelines
Werkzeuge

Open-Source-Struktur-Halluzinationsprüfer für KI-Agenten-Pipelines

Ein neues Open-Source-Tool bietet vier Unterdrücker, um strukturelle Fehler in KI-Agenten-Pipelines zu erkennen, darunter Grounding-Erzwingung, Prompt-Injection-Erkennung, JSON-Validierung und Tool-Antwort-Verifizierung. Verfügbar als REST-API und MCP-Server mit einem kostenlosen Kontingent von 500 Anfragen/Monat.

OpenClawRadar