Cross-Model-Review: KI-Agenten-Fehler erkennen

Wie Cross-Model-Review funktioniert

Ein Entwickler auf r/ClaudeAI hat ein System entwickelt, das ein häufiges Problem mit KI-Coding-Agents wie Codex, Claude Code und Cursor angeht: Pläne werden ausgeführt, ohne dass zuvor jemand ihre Annahmen hinterfragt. Die Lösung leitet jeden Plan vor Ausführungsbeginn durch ein zweites KI-Modell mit anderer Architektur und Trainingsdaten.

Wichtige Implementierungsdetails

Das Reviewer-Modell ist schreibgeschützt und kann den Code nicht verändern – es kann nur den Plan hinterfragen. Diese Einschränkung ist entscheidend, denn "sobald es bearbeiten kann, hört es auf, Kritiker zu sein, und beginnt zu kompromittieren." Das System führt eine automatische Schleife mit einer Rundenbegrenzung aus: Pläne werden bei gefundenen Problemen zur Überarbeitung zurückgeschickt, bis sie bestehen oder die Grenze erreichen.

Was das System erkennt

Rollback-Pläne, die nicht wirklich zurücksetzen
Berechtigungskonzepte mit echten Sicherheitslücken
Review-Gates, die Go/No-Go-Entscheidungen aus veraltetem Zustand treffen
Mehrstufige Pläne, die kohärent klingen, bis ein zweites Modell den gesamten Ablauf durchgeht

Kritische Design-Entscheidungen

Begrenzter Review-Kontext verhindert, dass der Reviewer Zeit mit irrelevanten Repository-Teilen verschwendet
Reviewer-Personas (Lieferrisiko, Reproduzierbarkeit, Leistungskosten, Sicherheitskonformität) erkennen verschiedene Problemtypen
Ein Live-TUI-Dashboard zeigt Phase, Runde, Urteil, Schweregrad, Kosten und Verlauf in einer Terminalansicht
Das System funktioniert mit verschiedenen Planern: Claude Code nutzt einen nativen ExitPlanMode-Hook, während Codex und andere Orchestratoren ein explizites Gate verwenden

Praktische Ergebnisse

Der Entwickler nutzte das System, um es selbst mit aufzubauen: "Codex plante, Claude überprüfte die Pläne, und das Design konvergierte über mehrere Runden." Das Tool ist unter der MIT-Lizenz verfügbar und als rival-review auf GitHub erhältlich.

📖 Read the full source: r/ClaudeAI

Übergreifende Modell-Review-Schleife für KI-Coding-Agents erkennt kritische Planungsfehler

Wie Cross-Model-Review funktioniert

Wichtige Implementierungsdetails

Was das System erkennt

Kritische Design-Entscheidungen

Praktische Ergebnisse

👀 Siehe auch

Die Claude-Fähigkeit für Devvit verbessert die Genauigkeit der Codegenerierung von 73 % auf 100 %.

Testen lokaler LLMs für autonome Codegenerierung: Qualitäts- vs. Geschwindigkeits-Benchmark

UK Sovereign LLM Inferenz: Relax.ai veröffentlicht öffentliche Dokumente

Agent Wake Skill für OpenClaw: Discord benachrichtigen, wenn Aufgaben abgeschlossen sind