Kiro CLI로 Anthropic의 Generator-Evaluator Harness 구현하기: 12회 반복 웹사이트 구축

한 개발자가 GAN에서 영감을 받아 장기 실행 앱을 위한 Anthropic의 Generator-Evaluator 하네스 설계를 복제했습니다. 아키텍처: Planner(한 번 실행) 후 Generator ↔ Evaluator 루프가 12회 반복됩니다. 각 에이전트는 별도의 CLI 프로세스로 공유 컨텍스트가 전혀 없으며, 파일(spec.md, eval-report.md)을 통해서만 통신합니다. Evaluator는 단순히 코드를 읽는 것이 아니라 Playwright를 사용하여 라이브 사이트를 탐색합니다.
주요 아키텍처 세부사항
- 호출 시마다 완전 초기화: 각 에이전트는 새로 시작하여 입력 파일만 읽습니다. 컨텍스트 불안을 방지합니다.
- 테스트용 Playwright MCP: 탐색, 클릭, 뷰포트 크기 조정. 코드 리뷰로는 절대 발견할 수 없는 시각적 버그를 잡아냅니다.
- Anthropic의 프론트엔드 디자인 기술: 일반적인 AI 패턴(Inter 폰트, 보라색 그라데이션, 카드 레이아웃)에 명시적으로 불이익을 줍니다. 창의적인 위험 감수를 강제합니다.
- 지속적 반복, 실패 시 재시도 아님: 12라운드 모두 실행됩니다. 각 라운드마다 개선됩니다.
결과 및 통계
1차 반복: 기능적이지만 평범함. 4차 반복: Generator가 "Terminal Noir"로 전환—IBM Plex Mono, 검정 바탕에 호박색, 입자 질감, 스캔라인. 5-12차 반복: 다듬기, 접근성, 반응형 수정, 축소 모션 지원.
- 총 소요 시간: 3시간 20분
- 반복 횟수: 12회 (generator + evaluator 각각)
- 직접 작성한 코드: 0줄 (이후 몇 가지 시각적 문제 수정)
- 기술 스택: Next.js, Tailwind, Framer Motion, TypeScript
실제 결과물
https://mnemo-mcp.github.io/Mnemo/
주요 시사점
모델은 엔진입니다. 하네스—제약 조건, 피드백 루프, 적대적 구조—가 AI 쓰레기인지 아니면 진정으로 독특한 결과물인지를 결정합니다.
📖 전체 원문 읽기: r/ClaudeAI
👀 See Also

혼자서 3D 애니메이터가 클로드 코워크 플러그인으로 지속적인 AI 비즈니스 개발 어시스턴트를 구축한 방법
1인 3D 애니메이션 스튜디오 운영자가 Claude Cowork 플러그인을 사용하여 지속적인 AI 영업 개발 어시스턴트(Reid)를 구축했습니다. 잠재 고객 조사, 후속 관리, 피치 준비, 전략 수립을 처리합니다. 핵심 설계는 전략적이고 직설적인 페르소나를 가진 역할로, 모든 출력을 형성합니다.

사용자 보고서, 클로드가 심층 문서 분석에서 GPT-4o를 능가: 논리적 모순 포착, 어조 정확히 재작성
ChatGPT 충성 사용자였던 한 개발자가 구체적인 경험을 공유했습니다: Claude 3.5 Sonnet은 15,000단어 분량의 기술 문서에서 GPT-4o가 놓친 세 가지 논리적 모순을 찾아냈고, 작성자의 어조를 정확히 유지하며 섹션을 다시 작성했습니다.

대규모 코드베이스 현지화: LLM을 활용한 4,500개 UI 키 개발자 워크플로우
한 개발자가 4,500개의 UI 키를 가진 게임을 현지화하는 워크플로우를 공유했습니다. 그들은 번역 프롬프트에 컨텍스트를 추가하고 Qwen 3 8B와 같은 로컬 모델을 사용하면 허용 가능한 품질을 얻을 수 있는 반면, Claude와 Gemini Pro 같은 클라우드 모델은 파일 크기와 정확도 문제로 어려움을 겪는다는 사실을 발견했습니다.

벤치마크 대 프로덕션: AI 에이전트 테스트는 통과했지만 실제 워크플로우는 실패하는 경우
한 개발자가 벤치마크 테스트를 통과한 더 저렴한 Grok과 MiniMax 모델로 프로덕션 AI 에이전트를 Claude Sonnet에서 전환했지만, 벤치마크에서 다루지 않은 운영 안정성 문제로 인해 둘 다 프로덕션에서 실패했습니다.