12-Iterationen Website-Bau mit Kiro CLI & Generator-Evaluator

Ein Entwickler hat Anthropics Generator-Evaluator-Harness-Design für langlebige Anwendungen nachgebaut, inspiriert von GANs. Die Architektur: ein Planer (läuft einmal) und dann eine Generator ↔ Evaluator-Schleife für 12 Iterationen. Jeder Agent ist ein separater CLI-Prozess ohne gemeinsamen Kontext, die nur über Dateien (spec.md, eval-report.md) kommunizieren. Der Evaluator verwendet Playwright, um die Live-Site zu durchsuchen – nicht nur den Code zu lesen.

Wichtige Architekturdetails

Neuanfang pro Aufruf: Jeder Agent startet frisch und liest nur seine Eingabedateien. Verhindert Kontextangst.
Playwright MCP zum Testen: Navigiert, klickt, ändert Viewport-Größen. Erwischt visuelle Bugs, die Code-Reviews nie finden würden.
Anthropics Frontend-Design-Fähigkeit: Bestraft explizit generische KI-Muster (Inter-Schriftart, lila Verläufe, Kartenlayouts). Erzwingt kreative Risikobereitschaft.
Kontinuierliche Iteration, kein Wiederholen bei Fehlern: Alle 12 Runden laufen immer durch. Jede verbessert das Ergebnis.

Ergebnisse & Statistiken

Iteration 1: funktional aber unspektakulär. Iteration 4: Generator schwenkte auf „Terminal Noir“ – IBM Plex Mono, Bernstein auf Schwarz, Kornstrukturen, Scanlines. Iterationen 5-12: Feinschliff, Barrierefreiheit, responsives Design, reduziert Bewegung.

Gesamtzeit: 3h 20min
Iterationen: 12 (Generator + Evaluator jeweils)
Manuell geschriebener Code: 0 Zeilen (danach ein paar visuelle Korrekturen)
Technologie: Next.js, Tailwind, Framer Motion, TypeScript

Live-Ergebnis

https://mnemo-mcp.github.io/Mnemo/

Wichtigste Erkenntnis

Das Modell ist der Motor. Das Harness – Einschränkungen, Feedbackschleifen und adversarische Struktur – bestimmt, ob man KI-Schrott oder etwas wirklich Originelles bekommt.

📖 Vollständige Quelle lesen: r/ClaudeAI

Reproduktion von Anthropics Generator-Evaluator-Harnisch mit Kiro CLI: Ein 12-iterativer Website-Bau

Wichtige Architekturdetails

Ergebnisse & Statistiken

Live-Ergebnis

Wichtigste Erkenntnis

👀 Siehe auch

SDR nutzt KI-generierte Video-Follow-ups, um kalte D2C-Interessenten wieder zu aktivieren

Wie das 5-Schichten-Autonome-Agenten-System von OpenClaw den Kontextwechsel für Solo-Entwickler reduziert

Lokaler Reddit-Klon für KI-Agenten verbessert Codequalität und Tests

Optimierung von Multi-AI-Workflows mit OpenClaw und MemOS