Reproduktion von Anthropics Generator-Evaluator-Harnisch mit Kiro CLI: Ein 12-iterativer Website-Bau

✍️ OpenClawRadar📅 Veröffentlicht: 17. Mai 2026🔗 Source
Reproduktion von Anthropics Generator-Evaluator-Harnisch mit Kiro CLI: Ein 12-iterativer Website-Bau
Ad

Ein Entwickler hat Anthropics Generator-Evaluator-Harness-Design für langlebige Anwendungen nachgebaut, inspiriert von GANs. Die Architektur: ein Planer (läuft einmal) und dann eine Generator ↔ Evaluator-Schleife für 12 Iterationen. Jeder Agent ist ein separater CLI-Prozess ohne gemeinsamen Kontext, die nur über Dateien (spec.md, eval-report.md) kommunizieren. Der Evaluator verwendet Playwright, um die Live-Site zu durchsuchen – nicht nur den Code zu lesen.

Wichtige Architekturdetails

  • Neuanfang pro Aufruf: Jeder Agent startet frisch und liest nur seine Eingabedateien. Verhindert Kontextangst.
  • Playwright MCP zum Testen: Navigiert, klickt, ändert Viewport-Größen. Erwischt visuelle Bugs, die Code-Reviews nie finden würden.
  • Anthropics Frontend-Design-Fähigkeit: Bestraft explizit generische KI-Muster (Inter-Schriftart, lila Verläufe, Kartenlayouts). Erzwingt kreative Risikobereitschaft.
  • Kontinuierliche Iteration, kein Wiederholen bei Fehlern: Alle 12 Runden laufen immer durch. Jede verbessert das Ergebnis.
Ad

Ergebnisse & Statistiken

Iteration 1: funktional aber unspektakulär. Iteration 4: Generator schwenkte auf „Terminal Noir“ – IBM Plex Mono, Bernstein auf Schwarz, Kornstrukturen, Scanlines. Iterationen 5-12: Feinschliff, Barrierefreiheit, responsives Design, reduziert Bewegung.

  • Gesamtzeit: 3h 20min
  • Iterationen: 12 (Generator + Evaluator jeweils)
  • Manuell geschriebener Code: 0 Zeilen (danach ein paar visuelle Korrekturen)
  • Technologie: Next.js, Tailwind, Framer Motion, TypeScript

Live-Ergebnis

https://mnemo-mcp.github.io/Mnemo/

Wichtigste Erkenntnis

Das Modell ist der Motor. Das Harness – Einschränkungen, Feedbackschleifen und adversarische Struktur – bestimmt, ob man KI-Schrott oder etwas wirklich Originelles bekommt.

📖 Vollständige Quelle lesen: r/ClaudeAI

Ad

👀 Siehe auch

Automatisierte KI-Entwicklungspipeline mit 11 Qualitätssicherungsstufen und Konfidenzprofilen
Anwendungsfälle

Automatisierte KI-Entwicklungspipeline mit 11 Qualitätssicherungsstufen und Konfidenzprofilen

Ein Entwickler hat eine KI-gestützte Pipeline mit 11 automatisierten Qualitätsstufen erstellt, die end-to-end ohne manuelle Genehmigungen läuft. Durch den Einsatz von Konfidenzprofilen, automatischer Wiederherstellung und Caching werden Design, Planung, Erstellung, Tests und Sicherheitsprüfungen autonom abgewickelt, wodurch der Token-Verbrauch um 60–84 % reduziert wird.

OpenClawRadar
Claude Code-Benutzer melden Konsistenzprobleme in der Produktionsentwicklung
Anwendungsfälle

Claude Code-Benutzer melden Konsistenzprobleme in der Produktionsentwicklung

Ein bezahlter Claude Code-Abonnent berichtet von erheblichen Schwierigkeiten bei der Nutzung des Tools für ein Flask-basiertes Business-Dashboard-Projekt über 22+ Entwicklungssitzungen hinweg und nennt drei wiederkehrende Muster von Anweisungsnichteinhaltung, die zu Produktivitätsverlusten und technischen Problemen führten.

OpenClawRadar
OpenClaw erstellt 90 % der Videos mit KI-Modellen für 69,5 $.
Anwendungsfälle

OpenClaw erstellt 90 % der Videos mit KI-Modellen für 69,5 $.

Ein Reddit-Nutzer erstellte ein Video, bei dem OpenClaw 90 % des Prozesses übernahm, einschließlich Themenauswahl, Charaktergenerierung, Storyboarding und Videosegmentgenerierung mit den Modellen GPT-5, VEO3.1 fast und Nano Banana Pro, bei Gesamtkosten von 69,5 $ für KI.

OpenClawRadar
Linke Argumente für KI: Behinderung, chronische Krankheit und Klasse
Anwendungsfälle

Linke Argumente für KI: Behinderung, chronische Krankheit und Klasse

Sean Goedecke argumentiert, dass LLMs linke Werte unterstützen, indem sie behinderten Menschen helfen, Patienten mit chronischen Krankheiten bei der Bewältigung medizinischer Hürden unterstützen und Klassen-Code-Switching zur bürokratischen Sprache ermöglichen.

OpenClawRadar