Kaltvalidierungsarchitektur: Dual-Agent-Code-Review-System als Open Source veröffentlicht

Cold Validation Architecture ist ein Open-Source-System, das eine Dual-Agent-Validierung für KI-generierten Code implementiert. Ein Agent schreibt den Code, während ein separater Agent ihn unabhängig prüft, ohne Zugriff auf die Überlegungen oder den Kontext des Erstellers zu haben.
Wie es funktioniert
Das System adressiert die Selbstprüfungsverzerrung bei Einzelagenten durch die Anwendung einer Aufgabentrennung ähnlich unabhängiger Audits. Der Prüfer arbeitet in vollständiger Isolation vom Denkprozess des Erstellers.
Arbeitsablaufphasen
- Plan schreiben →
/review-plan(Gate A) - Implementieren →
/review-impl(Gate C) - Ausliefern →
/acceptance-report(Gate D)
Wichtige Implementierungsdetails
- Der Prüfer läuft in einem isolierten temporären Verzeichnis
- Prüfer sieht nur: Plan-Dokument, Code-Diff und Testergebnis
- Ergebnisse bleiben mit Fingerabdrücken zur Nachverfolgung erhalten
- Ersteller kann der Begründung des Prüfers widersprechen
- Maximal 2 Runden pro Phase
- Erstellt mit Bash-Skripten und JSON-Schemata
- Funktioniert derzeit mit Claude Code + Codex CLI
- Muster ist agentenunabhängig (funktioniert mit verschiedenen KI-Agenten)
Technische Spezifikationen
Das System ist als Bash-Skripte implementiert, die zwischen zwei separaten KI-Agenten koordinieren. JSON-Schemata definieren die Struktur für Plan-Dokumente, Code-Überprüfungen und Abnahmeprotokolle. Die isolierte Ausführungsumgebung stellt sicher, dass der Prüfer keinen Zugriff auf die internen Überlegungen oder Zwischenschritte des Erstellers hat.
Dieser Ansatz ist nützlich für Entwickler, die eine strengere Validierung für KI-generierten Code implementieren möchten, insbesondere bei der Arbeit mit komplexen Systemen, bei denen die Selbstprüfung durch einen einzelnen Agenten Bestätigungsverzerrungen einführen könnte.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Community-Patch fügt RTL-Sprachunterstützung zu Claude Desktop unter Windows hinzu
Ein Entwickler hat einen Patch erstellt, der ordnungsgemäße Unterstützung für rechts-nach-links-Sprachen in Claude Desktop unter Windows hinzufügt und damit die fehlerhafte Darstellung für Hebräisch, Arabisch und andere RTL-Sprachen behebt. Der Patch injiziert RTL-Erkennungslogik in den Renderer der Electron-App und enthält Backup- und Wiederherstellungsfunktionalität.

CSS-Modernfunktionen Agenten-Fähigkeit: Moderne CSS-Praktiken in KI-Codierungsagenten durchsetzen
Eine Agent-Fähigkeit, die über 57+ moderne CSS-Features in den Bereichen Farbe, Layout, Selektoren, Animation, Typografie, Positionierung und Komponentenmuster durchsetzt, kompatibel mit Claude Code, Cursor, Windsurf, Codex, Cline und GitHub Copilot.

Die Dual-Modell-Architektur reduziert den Token-Verbrauch für lange Gespräche um die Hälfte.
Ein Entwickler hat ein Dual-Modell-System aufgebaut, bei dem ein kleines 'Unterbewusstseins'-Modell im Hintergrund den Gesprächsverlauf komprimiert. Dadurch kann das Hauptmodell mit einem kuratierten Kontext von etwa 35K Token arbeiten, anstatt mit 120K Token des rohen Verlaufs. Diese Architektur reduziert den Token-Verbrauch bei längerfristigen Projektarbeiten ungefähr um die Hälfte.

AutoProber: KI-gesteuerte Flugsonde-Automatisierung für Hardware-Hacking
AutoProber ist ein Automatisierungs-Stack für fliegende Prüfköpfe für Hardware-Hacker, der KI-Agenten ermöglicht, Ziele zu entdecken, Mikroskopbilder zu kartieren, sicherheitsüberwachte CNC-Bewegungen durchzuführen, Prüfungen zu überprüfen und kontrollierte Pin-Prüfungen durchzuführen. Es umfasst Python-Steuerungscode, ein Web-Dashboard, CAD-Dateien und arbeitet mit GRBL-CNC-Controllern, USB-Mikroskopen und Oszilloskop-Sicherheitsüberwachung.