KI-Agenten-Compliance: Negativsprache & Tools in Bootstrap

Ein Entwickler auf r/openclaw diskutiert Herausforderungen bei der KI-Agenten-Compliance und teilt konkrete Strategien, die bei ihm funktioniert haben.

Zwei anfängliche Ansätze

Die Quelle identifiziert zwei Faktoren, die die Agenten-Compliance beeinflussen:

Die Persönlichkeit des Modells ist wichtig: Die Compliance variiert je nach Modell erheblich. Einige sind langsam, einige stur und einige "glauben, sie sind schlauer als du." Diese Persönlichkeit beeinflusst direkt das regelkonforme Verhalten.
Negative Sprache funktioniert besser: Die Verwendung von NO, DO NOT und NEVER in Bootstrap-Anweisungen haftet tendenziell besser als positive Anweisungen. Der Entwickler empfiehlt, diesen Ansatz zu "verstärken".

Das mentale Modell: Kunstlehrer vs. Naturwissenschaftslehrer

Der Entwickler stellt einen Rahmen zum Verständnis von Compliance-Problemen vor:

KI-Modelle = Kunstlehrer: Brillant, kreativ und wertvoll, aber sie "machen ihr eigenes Ding." Dies wird sowohl als Feature als auch als Bug aktueller KI-Systeme beschrieben.
Tools & Code = Naturwissenschaftslehrer: Strukturiert und regelgebunden. Naturwissenschaftslehrer setzen Regeln, die "nicht gebrochen werden können – wie die Schwerkraft." Selbst wenn der Kunstlehrer die Schwerkraft nicht mag, "fällt sie trotzdem."

Praktische Anwendung

Der Entwickler liefert ein reales Beispiel, das ein Memory-Plugin betrifft, das Agenten-Amnesie behebt. Bestimmte Berichte "müssen für die Gedächtniserhaltung und zur Verhinderung von Gedächtnislöschung ausgeführt werden," einschließlich interner Berichte und nutzerorientierter Berichte wie eines wiederkehrenden nächtlichen Memory Health Reports.

Während der Entwicklung ignorierte der "Kunstlehrer" (KI-Modell) weiterhin Formate oder Daten, was zu inkonsistenter Leistung führte – manchmal perfekt, manchmal abwesend. Der Übeltäter war das Modell, das "die Bootstrap-Regeln verbog".

Compliance-Durchsetzungsstrategie

Der Entwickler skizziert einen zweistufigen Ansatz:

Versuch Stufe 1: Verwende stärkere Worte im Bootstrap (NO/NEVER, etc.).
Versuch Stufe 2: Wenn weiche Regeln in .md-Dateien versagen, "verwende tatsächlichen Code, um Compliance zu erzwingen." Das bedeutet, Tools – Python, Skripte, harte Struktur – zu verwenden. Der Entwickler stellt fest, dass "harte Struktur höfliche Anweisungen jedes Mal schlägt."

Der aktuelle Ansatz des Entwicklers ist, zunächst zu entscheiden, ob eine Aufgabe einen "Kunstlehrer" (KI-Modell) oder einen "Naturwissenschaftslehrer" (Tools und Code) benötigt. Dieser Entscheidungsprozess hilft bei der Compliance-Durchsetzung und reduziert Stress.

TL;DR Zusammenfassung

Compliance hängt von der Stärke der Bootstrap-Sprache (NO/NEVER/etc.) und davon ab, welches Modell du verwendest. Wenn diese weichen Regeln versagen, "höre auf, den Kunstlehrer zu fragen, und schreibe stattdessen einen Naturwissenschaftslehrer – Tools und Code."

📖 Read the full source: r/openclaw