Einführung von operate.txt: Eine YAML-Spezifikation für KI-Agenten zur Navigation von SaaS-Produkten

Ein Entwickler hat operate.txt erstellt, eine Spezifikation zur Dokumentation, wie KI-Agenten mit Webanwendungen interagieren sollten. Die Datei behandelt Probleme, die bei der Verwendung von Claudes Computer-Nutzungsfunktion zur Navigation in einem SaaS-Produkt auftraten, wobei der KI-Agent wiederholt fragte, ob Ladebildschirme auf defekte Funktionalität hindeuteten.
Problem und Lösung
Bei der Verwendung von Claude Code + Computer-Nutzung zur Navigation in BrandyBee (einem SaaS-Produkt) als Erstbenutzer identifizierte der Entwickler spezifische Schwachstellen, bei denen Claude Schwierigkeiten hatte:
- Während einer Markenanalyse, die 90-120 Sekunden dauert, fragte Claude bei 28 % Fertigstellung: 'Ist das ein Ladezustand oder stimmt etwas nicht?'
- Ein 'Genehmigen'-Button, der kostenpflichtige API-Aufrufe ohne Bestätigungs-UI auslöst
- Ein Sprach-Dropdown, das sich erst nach Auswahl des Landes füllt
- Asynchrone Prozesse, die 2-5 Minuten dauern und abgestürzt erscheinen
Jedes Mal lautete die Antwort: 'Nein, das ist normal, warte einfach.' Dies führte zur Erstellung von operate.txt als Äquivalent zu robots.txt für Crawler oder sitemap.xml für Suchmaschinen, aber speziell für KI-Agenten, die Produkte bedienen.
operate.txt-Spezifikation
Die operate.txt-Datei ist eine YAML-Datei, die unter yourdomain.com/operate.txt gehostet wird und dokumentiert:
- Was jeder Bildschirm ist
- Wie Ladezustände aussehen und wie lange sie dauern
- Welche Aktionen irreversibel sind
- Den schrittweisen Pfad für häufige Aufgaben
- Was Agenten niemals tun sollten
Der nützlichste Abschnitt ist async_actions, der Agenten Details mitteilt wie: 'Dieser Prozess dauert 90-120 Sekunden, nicht aktualisieren, nicht weg navigieren, hier sind die Phasen, die er durchläuft.'
Erstellungsprozess und Beispiele
Der Entwickler hat die Spezifikation mit echten Beispielen quelloffen gemacht, einschließlich seines eigenen SaaS, einer E-Commerce-Vorlage und einer SaaS-Dashboard-Vorlage unter https://github.com/serdem1/operate.txt.
Der Erstellungsprozess beinhaltet, dass Claude Ihr Produkt navigiert, beobachtet, wo es zögert, und dann Claude die operate.txt-Datei entwerfen lässt. Der Entwickler korrigiert, was Claude falsch versteht, und schafft eine Feedback-Schleife, in der die KI Lücken findet und der Mensch sie füllt.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Claude Code Hook überwacht die WIP-Akkumulation in KI-Codierungs-Workflows
Ein Entwickler hat einen UserPromptSubmit-Hook für Claude Code erstellt, der die laufende Arbeit in vier Warteschlangen sichtbar macht: nicht committete Änderungen über 200 Zeilen, drei oder mehr nicht gepushte Commits, gepushte Commits ohne Changeset-Dateien und Release-PRs, die länger als 24 Stunden offen sind.

TailClaude: Open-Source-Weboberfläche für den Zugriff auf Claude-Code-Sitzungen von Mobilgeräten und Browsern
TailClaude ist eine Open-Source-Weboberfläche, mit der Sie Claude-Code-Sitzungen von Ihrem Smartphone oder jedem Browser in weniger als einer Minute über Tailscale aufrufen und fortsetzen können. Das Projekt wurde mit Unterstützung von Claude Code für das Grundgerüst, das SSE-Streaming-Backend, die mobile Chat-Oberfläche und die QR-Code-Integration entwickelt.
MartinLoop: Open-Source-Steuerungsebene für KI-Coding-Agenten mit Budgetgrenzen und Prüfpfaden
MartinLoop ist eine Open-Source-Steuerungsebene für KI-Coding-Agenten, die harte Budgetstopps, JSONL-Audit-Trails, Fehlerklassifizierung und testverifizierte Abschlussprüfungen hinzufügt.

TranscriptionSuite v1.1.2 fügt WhisperX-, NeMo- und VibeVoice-Modelle hinzu.
TranscriptionSuite v1.1.2 bietet nun drei Transkriptions-Pipelines: WhisperX mit PyAnnote-Diarisierung, NeMo-Modelle (Parakeet & Canary) mit PyAnnote-Diarisierung und VibeVoice-Modelle mit integrierter Diarisierung. Das Update umfasst einen Modell-Manager, parallele Verarbeitung, Tastenkürzel-Steuerungen und eine 24kHz-Aufnahmepipeline für VibeVoice.