Verwendung eines adversarialen Claude-Chats zur Erkennung von Kickoff-Mehrdeutigkeiten, bevor sie dich etwas kosten

✍️ OpenClawRadar📅 Veröffentlicht: 12. Mai 2026🔗 Source
Ad

Ein Entwickler auf r/ClaudeAI beschreibt einen Multi-Rollen-KI-Workflow, bei dem ein separater Claude-Chat als adversarieller Prüfer für Kickoffs fungiert, die an Claude Code gesendet werden. Das Setup deckte stille Fehler auf, wie z. B. geschweifte Anführungszeichen in HTML-Meta-Tags und Canon-Verstöße, die der primäre Architekt-Chat nach dem Sperren einer Regel erneut committed hatte.

In sechs Produktionsprojekten bemerkte der Autor, dass Claude Code entweder 2–4 klärende Fragen während der Ausführung stellte oder einen Abschlussbericht mit 4–8 Abweichungen von der Absicht zurückgab, einschließlich stiller Fehler, die erst später entdeckt wurden. Die Lösung: ein zweiter Claude-Chat, der mit dem Projekt-Canon (Voice-Dokumente, Projektstatus, gewonnene Erkenntnisse) und einem Protokoll ausgestattet ist, das ihn anweist, mehrdeutige Spezifikationen, fehlende Verifikationsschritte und stille Fehlermodi zu finden. Der Prüfer gibt ein Urteil in einem vorhersehbaren Format zurück: PASS, PASS-WITH-FLAGS oder FAIL.

Phasenergebnisse

  • 9 Prüfschleusen während der Phase
  • 2 FAILs, 4 PASS-WITH-FLAGS, 3 PASS
  • Null sauberer First-Pass-PASS bei kundenorientierten Texten
  • ~33 $ tatsächliche Claude Code API-Ausgaben
  • Schätzungsweise 150–400 $ an Claude Code-Zeit gespart, indem Probleme vor der Ausführung erkannt wurden
Ad

ROI und Kosten

Auf Claude.ai Max 5x (100 $/Monat Pauschalgebühr) waren die Grenzkosten des adversariellen Prüfers praktisch null (nur Rate-Limit-Budget). Bei API-Preisen würde jedes Gate je nach Modell 0,06–0,90 $ kosten. Der ROI konzentriert sich auf die Executor-Seite (Claude Code), wo Wiederholungen als API-Ausgaben abgerechnet werden.

Die vier Rollen

  • Director (Mensch): Besitzt das Projekt, entscheidet über Auslieferungen, schlichtet Streitigkeiten zwischen Architekt und Auditor
  • Architect (Chat-KI): Entwirft Kickoffs, denkt nach, dokumentiert
  • Executor (Claude Code): Erhält Kickoffs, führt aus, berichtet zurück
  • Auditor (separater Chat-KI): Prüft Kickoffs und Abschlussberichte adversariell

Der Autor nennt diesen Workflow Calibrated Vibe Coding und veröffentlicht den Canon öffentlich unter github.com/kinestheticmarketing-stack/calibrated-design-canon. Die sofort nützlichsten Dateien sind METHODS/AUDITOR_PROTOCOL.md und METHODS/AUDITOR_PRIMING_TEMPLATE.md, mit denen Sie einen adversariellen Prüfer für Ihren nächsten wichtigen Kickoff einrichten können.

📖 Source: r/ClaudeAI

Ad

👀 Siehe auch

SkyClaw v2.2 Rust AI Agent Runtime fügt OpenAI OAuth und benutzerdefinierte Tool-Erstellung hinzu
Werkzeuge

SkyClaw v2.2 Rust AI Agent Runtime fügt OpenAI OAuth und benutzerdefinierte Tool-Erstellung hinzu

SkyClaw v2.2 führt die OpenAI OAuth-Authentifizierung mit ChatGPT Plus/Pro-Abonnements ein, ermöglicht die Erstellung benutzerdefinierter Tools, bei denen Agenten zur Laufzeit eigene Bash/Python/Node-Tools schreiben, und bietet einen Daemon-Modus für den Hintergrundbetrieb. Die Rust-basierte Laufzeitumgebung erreicht Benchmarks von 31 ms Kaltstart, 15 MB Leerlauf-RAM und 9,3 MB Binärgröße.

OpenClawRadar
MCP-Kontextaufblähung: Echte Kosten und eine praktische Lösung für Claude-Code-Nutzer
Werkzeuge

MCP-Kontextaufblähung: Echte Kosten und eine praktische Lösung für Claude-Code-Nutzer

Der Betrieb von 9 MCP-Servern in Claude Code führt zu Kaltstarts mit 38k Token, ~700 $/Monat an Overhead durch Tool-Definitionen und verschlechterter Modellleistung. Ein Gateway-Muster mit BM25-Ranking reduziert den Kontext auf 4k.

OpenClawRadar
Tendr Skill: Deterministische CLI-Operationen für die Agentenspeicherverwaltung
Werkzeuge

Tendr Skill: Deterministische CLI-Operationen für die Agentenspeicherverwaltung

Tendr Skill ist eine Agent Skill, die das Denken von der Ausführung trennt, um strukturiertes Langzeitgedächtnis zu ermöglichen. Sie erlaubt es Agenten zu entscheiden, was geändert werden muss, während ein CLI-Tool die strukturellen Operationen deterministisch ausführt. Sie unterstützt [[wikilinks]] und explizite semantische Hierarchien über Dateien hinweg.

OpenClawRadar
Open-Source-Gedächtnissystem für LLM-Agenten erzielt hohe Benchmark-Ergebnisse
Werkzeuge

Open-Source-Gedächtnissystem für LLM-Agenten erzielt hohe Benchmark-Ergebnisse

Ein persistentes Speichersystem für Claude Code und OpenClaw bietet LLM-Agenten Kontextkontinuität über Sitzungen hinweg und erreicht 90,8 % beim LoCoMo- und 89,1 % beim LongMemEval-Benchmark.

OpenClawRadar