Rival-Review: Ein Cross-Modell-Review-Loop für KI-Agenten-Pläne

Was es ist
Rival-review ist ein Tool, das ein häufiges Muster angeht, bei dem KI-Coding-Agenten plausibel klingende Pläne erstellen, die mit der Ausführung beginnen, ohne angemessen auf ihre Robustheit geprüft worden zu sein. Die Kernidee ist einfach: Das Modell, das den Plan vorschlägt, ist nicht das Modell, das ihn überprüft.
Wie es funktioniert
Der Ablauf ist unkompliziert:
- Der Planer schreibt einen Plan
- Claude überprüft ihn anhand des definierten Kontexts
- Probleme gehen zur Überarbeitung zurück
- Die Schleife wird fortgesetzt, bis die Prüfung bestanden ist oder die maximale Rundenanzahl erreicht ist
Das zweite Modell überprüft den Plan in einem schreibgeschützten Durchlauf, bevor die Implementierung beginnt. Diese übergreifende Modellprüfung erkennt Dinge, die über reine "Planpolitur" hinausgehen:
- Rollback-Pläne, die tatsächlich kein Rollback durchführen
- Berechtigungskonzepte mit echten Sicherheitslücken
- Prüfschritte, die Go/No-Go-Entscheidungen auf Basis veralteter Zustände treffen
- Mehrstufige Pläne, die kohärent klingen, bis ein zweites Modell den gesamten Ablauf durchgeht
Wesentliche Design-Entscheidungen
Mehrere Design-Entscheidungen erwiesen sich als sehr wichtig:
- Der Prüfer muss schreibgeschützt arbeiten
- Die automatische Schleife benötigt eine feste Rundenobergrenze
- Ein klar definierter Kontext ist sehr wichtig
- Ein Live-Terminal-Dashboard macht die Prüfschleife einsehbar statt undurchsichtig
Implementierungsdetails
Das Tool funktioniert mit verschiedenen Planern:
- Claude Code kann einen nativen Plan-Exit-Hook nutzen
- Codex und andere Orchestratoren können eine explizite Planer-Prüfung verwenden
Der Ersteller nutzte es, um es selbst mit aufzubauen: Codex plante, Claude überprüfte, und das Design entwickelte sich über mehrere Runden hinweg.
Verfügbarkeit
Das Tool ist unter MIT-Lizenz verfügbar und auf GitHub zu finden unter github.com/alexw5702-afk/rival-review.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Open-Source-Rust-MCP-Server verleiht Claude umfassende E-Mail-Verwaltungsfunktionen
Ein Entwickler hat einen Rust-basierten MCP-Server erstellt, der Claude 25 Werkzeuge für umfassendes E-Mail-Management bietet, einschließlich IMAP-Suche, SMTP-Versand, Microsoft Graph API-Unterstützung und Multi-Account-Handling mit OAuth2-Authentifizierung.

DoomVLM: Open-Source-Tool zum Testen von Vision-Language-Models in Doom-Deathmatches
DoomVLM ist jetzt als einzelnes Jupyter-Notebook quelloffen verfügbar, mit dem Sie Vision-Language-Modelle testen können, die Doom über OpenAI-kompatible APIs spielen. Das Tool unterstützt Deathmatch-Modi, in denen bis zu 4 Modelle gegeneinander antreten können, mit vollständigen Konfigurationsoptionen für System-Prompts, Tool-Beschreibungen und Sampling-Parameter.

Bit-Chat: KI-Agenten können Bitcoin über Lightning via Messaging-Plattformen senden
Ein Setup namens Bit-Chat ermöglicht es KI-Agenten, Bitcoin-Zahlungen über das Lightning-Netzwerk per E-Mail, WhatsApp, Telegram oder Signal zu senden. Agenten können dedizierte Adressen wie [email protected] generieren, und Zahlungen funktionieren auch dann, wenn der Empfänger nicht registriert ist.

Natürliche Sprachautoencoder: Wandlung von Claudes internen Darstellungen in Text
Transformer Circuits Thread veröffentlicht Natural Language Autoencoders, die Claudes interne Aktivierungen in lesbaren Text dekodieren. GitHub-Repo und interaktive Demo verfügbar.