Kiro CLIによるAnthropicのGenerator-Evaluator Harnessの複製:12回のイテレーションで構築されたウェブサイト

ある開発者が、GANに着想を得たAnthropicの長期間稼働アプリ向けGenerator-Evaluatorハーネスデザインを再現しました。アーキテクチャは、Planner(1回実行)の後、Generator ↔ Evaluatorループを12回繰り返します。各エージェントは独立したCLIプロセスで、共有コンテキストはゼロ、ファイル(spec.md、eval-report.md)を介してのみ通信します。EvaluatorはPlaywrightを使用してライブサイトを閲覧します(コードを読むだけではありません)。
主要なアーキテクチャ詳細
- 呼び出しごとにクリーンスレート: 各エージェントは新たに起動し、自分の入力ファイルのみを読み取ります。コンテキストの不安を防ぎます。
- テスト用のPlaywright MCP: ナビゲート、クリック、ビューポートのリサイズを行います。コードレビューでは決して見つからないビジュアルバグをキャッチします。
- Anthropicのフロントエンドデザインスキル: 一般的なAIパターン(Interフォント、紫のグラデーション、カードレイアウトなど)を明示的にペナルティします。創造的なリスクテイクを強制します。
- 継続的なイテレーション、失敗時の再試行ではない: 全12ラウンドが関係なく実行されます。各ラウンドで改善されます。
結果と統計
イテレーション1:機能的だが印象に残らない。イテレーション4:Generatorが「Terminal Noir」に転換—IBM Plex Mono、琥珀色に黒、グレインテクスチャ、スキャンライン。イテレーション5〜12:磨き、アクセシビリティ、レスポンシブ修正、動きの軽減サポート。
- 総時間:3時間20分
- イテレーション数:12(Generator + Evaluator各)
- 手動コード記述量:0行(後にいくつかの視覚的問題を修正)
- 技術:Next.js、Tailwind、Framer Motion、TypeScript
ライブ結果
https://mnemo-mcp.github.io/Mnemo/
重要な教訓
モデルはエンジンです。ハーネス—制約、フィードバックループ、対抗的構造—が、AIの粗製濫造になるか、本当に特徴的なものになるかを決定します。
📖 全文ソースを読む: r/ClaudeAI
👀 See Also

チャック・ジョーンズのロードランナー・ルールをAIエージェントのアイデンティティ設計原則として
あるRedditの投稿が、チャック・ジョーンズのロードランナー漫画のための9つのルールが、AIエージェントのアイデンティティ設計にどのように対応するかを分析し、内部の失敗モードに関するルール2、最適化ループの回避に関するルール3、そして優雅な失敗に関するルール9を強調しています。

開発者がClaude CodeとGodotで9日間でブラウザRPGを構築
開発者は、多ツールAIワークフローの一環としてGodotとClaude Codeを使用し、9日間で風刺的なブラウザRPG『Civic Nightmare』を作成しました。これは彼らの初めてのGodotエンジン使用でした。

2013年製MacBook ProでmacOS SonomaをOpenCore Legacy Patcher経由で実行し、OpenClawを動作させる
開発者は、OpenCore Legacy Patcherを使用してmacOS Sonoma(v14)をインストールし、Node.js 22/24の要件を満たすことで、2013年製MacBook Pro 15インチ(16GB RAM)にOpenClawを正常にインストール・実行することに成功しました。

Claude Managed Agents発表:マルチエージェントオーケストレーションと70日間の実践的教訓
今週、Anthropicはマルチエージェントオーケストレーションと拡張ツールチェーンを備えたManaged Agentsをリリースした。ある開発者が役割分割エージェント(Opus意思決定層、OpenCodeエンジニア、研究エージェント)を使用した70日間の経験と、'これを実行して'という指示から'私の前提に疑問を投げかけていい'という指示への重要な転換を共有している。