Rival-Review: Ein Cross-Modell-Review-Loop für KI-Agenten-Pläne

✍️ OpenClawRadar📅 Veröffentlicht: 15. April 2026🔗 Source
Rival-Review: Ein Cross-Modell-Review-Loop für KI-Agenten-Pläne
Ad

Was es ist

Rival-review ist ein Tool, das ein häufiges Muster angeht, bei dem KI-Coding-Agenten plausibel klingende Pläne erstellen, die mit der Ausführung beginnen, ohne angemessen auf ihre Robustheit geprüft worden zu sein. Die Kernidee ist einfach: Das Modell, das den Plan vorschlägt, ist nicht das Modell, das ihn überprüft.

Wie es funktioniert

Der Ablauf ist unkompliziert:

  • Der Planer schreibt einen Plan
  • Claude überprüft ihn anhand des definierten Kontexts
  • Probleme gehen zur Überarbeitung zurück
  • Die Schleife wird fortgesetzt, bis die Prüfung bestanden ist oder die maximale Rundenanzahl erreicht ist

Das zweite Modell überprüft den Plan in einem schreibgeschützten Durchlauf, bevor die Implementierung beginnt. Diese übergreifende Modellprüfung erkennt Dinge, die über reine "Planpolitur" hinausgehen:

  • Rollback-Pläne, die tatsächlich kein Rollback durchführen
  • Berechtigungskonzepte mit echten Sicherheitslücken
  • Prüfschritte, die Go/No-Go-Entscheidungen auf Basis veralteter Zustände treffen
  • Mehrstufige Pläne, die kohärent klingen, bis ein zweites Modell den gesamten Ablauf durchgeht
Ad

Wesentliche Design-Entscheidungen

Mehrere Design-Entscheidungen erwiesen sich als sehr wichtig:

  • Der Prüfer muss schreibgeschützt arbeiten
  • Die automatische Schleife benötigt eine feste Rundenobergrenze
  • Ein klar definierter Kontext ist sehr wichtig
  • Ein Live-Terminal-Dashboard macht die Prüfschleife einsehbar statt undurchsichtig

Implementierungsdetails

Das Tool funktioniert mit verschiedenen Planern:

  • Claude Code kann einen nativen Plan-Exit-Hook nutzen
  • Codex und andere Orchestratoren können eine explizite Planer-Prüfung verwenden

Der Ersteller nutzte es, um es selbst mit aufzubauen: Codex plante, Claude überprüfte, und das Design entwickelte sich über mehrere Runden hinweg.

Verfügbarkeit

Das Tool ist unter MIT-Lizenz verfügbar und auf GitHub zu finden unter github.com/alexw5702-afk/rival-review.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Open-Source-Rust-MCP-Server verleiht Claude umfassende E-Mail-Verwaltungsfunktionen
Werkzeuge

Open-Source-Rust-MCP-Server verleiht Claude umfassende E-Mail-Verwaltungsfunktionen

Ein Entwickler hat einen Rust-basierten MCP-Server erstellt, der Claude 25 Werkzeuge für umfassendes E-Mail-Management bietet, einschließlich IMAP-Suche, SMTP-Versand, Microsoft Graph API-Unterstützung und Multi-Account-Handling mit OAuth2-Authentifizierung.

OpenClawRadar
DoomVLM: Open-Source-Tool zum Testen von Vision-Language-Models in Doom-Deathmatches
Werkzeuge

DoomVLM: Open-Source-Tool zum Testen von Vision-Language-Models in Doom-Deathmatches

DoomVLM ist jetzt als einzelnes Jupyter-Notebook quelloffen verfügbar, mit dem Sie Vision-Language-Modelle testen können, die Doom über OpenAI-kompatible APIs spielen. Das Tool unterstützt Deathmatch-Modi, in denen bis zu 4 Modelle gegeneinander antreten können, mit vollständigen Konfigurationsoptionen für System-Prompts, Tool-Beschreibungen und Sampling-Parameter.

OpenClawRadar
Bit-Chat: KI-Agenten können Bitcoin über Lightning via Messaging-Plattformen senden
Werkzeuge

Bit-Chat: KI-Agenten können Bitcoin über Lightning via Messaging-Plattformen senden

Ein Setup namens Bit-Chat ermöglicht es KI-Agenten, Bitcoin-Zahlungen über das Lightning-Netzwerk per E-Mail, WhatsApp, Telegram oder Signal zu senden. Agenten können dedizierte Adressen wie [email protected] generieren, und Zahlungen funktionieren auch dann, wenn der Empfänger nicht registriert ist.

OpenClawRadar
Natürliche Sprachautoencoder: Wandlung von Claudes internen Darstellungen in Text
Werkzeuge

Natürliche Sprachautoencoder: Wandlung von Claudes internen Darstellungen in Text

Transformer Circuits Thread veröffentlicht Natural Language Autoencoders, die Claudes interne Aktivierungen in lesbaren Text dekodieren. GitHub-Repo und interaktive Demo verfügbar.

OpenClawRadar