Reproduktion von Anthropics Generator-Evaluator-Harnisch mit Kiro CLI: Ein 12-iterativer Website-Bau

Ein Entwickler hat Anthropics Generator-Evaluator-Harness-Design für langlebige Anwendungen nachgebaut, inspiriert von GANs. Die Architektur: ein Planer (läuft einmal) und dann eine Generator ↔ Evaluator-Schleife für 12 Iterationen. Jeder Agent ist ein separater CLI-Prozess ohne gemeinsamen Kontext, die nur über Dateien (spec.md, eval-report.md) kommunizieren. Der Evaluator verwendet Playwright, um die Live-Site zu durchsuchen – nicht nur den Code zu lesen.
Wichtige Architekturdetails
- Neuanfang pro Aufruf: Jeder Agent startet frisch und liest nur seine Eingabedateien. Verhindert Kontextangst.
- Playwright MCP zum Testen: Navigiert, klickt, ändert Viewport-Größen. Erwischt visuelle Bugs, die Code-Reviews nie finden würden.
- Anthropics Frontend-Design-Fähigkeit: Bestraft explizit generische KI-Muster (Inter-Schriftart, lila Verläufe, Kartenlayouts). Erzwingt kreative Risikobereitschaft.
- Kontinuierliche Iteration, kein Wiederholen bei Fehlern: Alle 12 Runden laufen immer durch. Jede verbessert das Ergebnis.
Ergebnisse & Statistiken
Iteration 1: funktional aber unspektakulär. Iteration 4: Generator schwenkte auf „Terminal Noir“ – IBM Plex Mono, Bernstein auf Schwarz, Kornstrukturen, Scanlines. Iterationen 5-12: Feinschliff, Barrierefreiheit, responsives Design, reduziert Bewegung.
- Gesamtzeit: 3h 20min
- Iterationen: 12 (Generator + Evaluator jeweils)
- Manuell geschriebener Code: 0 Zeilen (danach ein paar visuelle Korrekturen)
- Technologie: Next.js, Tailwind, Framer Motion, TypeScript
Live-Ergebnis
https://mnemo-mcp.github.io/Mnemo/
Wichtigste Erkenntnis
Das Modell ist der Motor. Das Harness – Einschränkungen, Feedbackschleifen und adversarische Struktur – bestimmt, ob man KI-Schrott oder etwas wirklich Originelles bekommt.
📖 Vollständige Quelle lesen: r/ClaudeAI
👀 Siehe auch

Automatisierte KI-Entwicklungspipeline mit 11 Qualitätssicherungsstufen und Konfidenzprofilen
Ein Entwickler hat eine KI-gestützte Pipeline mit 11 automatisierten Qualitätsstufen erstellt, die end-to-end ohne manuelle Genehmigungen läuft. Durch den Einsatz von Konfidenzprofilen, automatischer Wiederherstellung und Caching werden Design, Planung, Erstellung, Tests und Sicherheitsprüfungen autonom abgewickelt, wodurch der Token-Verbrauch um 60–84 % reduziert wird.

Claude Code-Benutzer melden Konsistenzprobleme in der Produktionsentwicklung
Ein bezahlter Claude Code-Abonnent berichtet von erheblichen Schwierigkeiten bei der Nutzung des Tools für ein Flask-basiertes Business-Dashboard-Projekt über 22+ Entwicklungssitzungen hinweg und nennt drei wiederkehrende Muster von Anweisungsnichteinhaltung, die zu Produktivitätsverlusten und technischen Problemen führten.

OpenClaw erstellt 90 % der Videos mit KI-Modellen für 69,5 $.
Ein Reddit-Nutzer erstellte ein Video, bei dem OpenClaw 90 % des Prozesses übernahm, einschließlich Themenauswahl, Charaktergenerierung, Storyboarding und Videosegmentgenerierung mit den Modellen GPT-5, VEO3.1 fast und Nano Banana Pro, bei Gesamtkosten von 69,5 $ für KI.

Linke Argumente für KI: Behinderung, chronische Krankheit und Klasse
Sean Goedecke argumentiert, dass LLMs linke Werte unterstützen, indem sie behinderten Menschen helfen, Patienten mit chronischen Krankheiten bei der Bewältigung medizinischer Hürden unterstützen und Klassen-Code-Switching zur bürokratischen Sprache ermöglichen.