Kiro CLI로 Anthropic Generator-Evaluator Harness 구현: 12회 반복

한 개발자가 GAN에서 영감을 받아 장기 실행 앱을 위한 Anthropic의 Generator-Evaluator 하네스 설계를 복제했습니다. 아키텍처: Planner(한 번 실행) 후 Generator ↔ Evaluator 루프가 12회 반복됩니다. 각 에이전트는 별도의 CLI 프로세스로 공유 컨텍스트가 전혀 없으며, 파일(spec.md, eval-report.md)을 통해서만 통신합니다. Evaluator는 단순히 코드를 읽는 것이 아니라 Playwright를 사용하여 라이브 사이트를 탐색합니다.

주요 아키텍처 세부사항

호출 시마다 완전 초기화: 각 에이전트는 새로 시작하여 입력 파일만 읽습니다. 컨텍스트 불안을 방지합니다.
테스트용 Playwright MCP: 탐색, 클릭, 뷰포트 크기 조정. 코드 리뷰로는 절대 발견할 수 없는 시각적 버그를 잡아냅니다.
Anthropic의 프론트엔드 디자인 기술: 일반적인 AI 패턴(Inter 폰트, 보라색 그라데이션, 카드 레이아웃)에 명시적으로 불이익을 줍니다. 창의적인 위험 감수를 강제합니다.
지속적 반복, 실패 시 재시도 아님: 12라운드 모두 실행됩니다. 각 라운드마다 개선됩니다.