operate.txt: YAML-Spezifikation für KI-Agenten zur SaaS-Navigation

Ein Entwickler hat operate.txt erstellt, eine Spezifikation zur Dokumentation, wie KI-Agenten mit Webanwendungen interagieren sollten. Die Datei behandelt Probleme, die bei der Verwendung von Claudes Computer-Nutzungsfunktion zur Navigation in einem SaaS-Produkt auftraten, wobei der KI-Agent wiederholt fragte, ob Ladebildschirme auf defekte Funktionalität hindeuteten.

Problem und Lösung

Bei der Verwendung von Claude Code + Computer-Nutzung zur Navigation in BrandyBee (einem SaaS-Produkt) als Erstbenutzer identifizierte der Entwickler spezifische Schwachstellen, bei denen Claude Schwierigkeiten hatte:

Während einer Markenanalyse, die 90-120 Sekunden dauert, fragte Claude bei 28 % Fertigstellung: 'Ist das ein Ladezustand oder stimmt etwas nicht?'
Ein 'Genehmigen'-Button, der kostenpflichtige API-Aufrufe ohne Bestätigungs-UI auslöst
Ein Sprach-Dropdown, das sich erst nach Auswahl des Landes füllt
Asynchrone Prozesse, die 2-5 Minuten dauern und abgestürzt erscheinen

Jedes Mal lautete die Antwort: 'Nein, das ist normal, warte einfach.' Dies führte zur Erstellung von operate.txt als Äquivalent zu robots.txt für Crawler oder sitemap.xml für Suchmaschinen, aber speziell für KI-Agenten, die Produkte bedienen.

operate.txt-Spezifikation

Die operate.txt-Datei ist eine YAML-Datei, die unter yourdomain.com/operate.txt gehostet wird und dokumentiert:

Was jeder Bildschirm ist
Wie Ladezustände aussehen und wie lange sie dauern
Welche Aktionen irreversibel sind
Den schrittweisen Pfad für häufige Aufgaben
Was Agenten niemals tun sollten

Der nützlichste Abschnitt ist async_actions, der Agenten Details mitteilt wie: 'Dieser Prozess dauert 90-120 Sekunden, nicht aktualisieren, nicht weg navigieren, hier sind die Phasen, die er durchläuft.'

Erstellungsprozess und Beispiele

Der Entwickler hat die Spezifikation mit echten Beispielen quelloffen gemacht, einschließlich seines eigenen SaaS, einer E-Commerce-Vorlage und einer SaaS-Dashboard-Vorlage unter https://github.com/serdem1/operate.txt.

Der Erstellungsprozess beinhaltet, dass Claude Ihr Produkt navigiert, beobachtet, wo es zögert, und dann Claude die operate.txt-Datei entwerfen lässt. Der Entwickler korrigiert, was Claude falsch versteht, und schafft eine Feedback-Schleife, in der die KI Lücken findet und der Mensch sie füllt.

📖 Read the full source: r/ClaudeAI

Einführung von operate.txt: Eine YAML-Spezifikation für KI-Agenten zur Navigation von SaaS-Produkten

Problem und Lösung

operate.txt-Spezifikation

Erstellungsprozess und Beispiele

👀 Siehe auch

Claude Code Hook überwacht die WIP-Akkumulation in KI-Codierungs-Workflows

TailClaude: Open-Source-Weboberfläche für den Zugriff auf Claude-Code-Sitzungen von Mobilgeräten und Browsern

MartinLoop: Open-Source-Steuerungsebene für KI-Coding-Agenten mit Budgetgrenzen und Prüfpfaden

TranscriptionSuite v1.1.2 fügt WhisperX-, NeMo- und VibeVoice-Modelle hinzu.