Воссоздание системы генератор-оценщик Anthropic с помощью Kiro CLI: создание сайта за 12 итераций

Разработчик воспроизвел дизайн обвязки Generator-Evaluator от Anthropic для долгоиграющих приложений, вдохновленный GAN. Архитектура: Planner (запускается один раз), затем цикл Generator ↔ Evaluator на 12 итераций. Каждый агент — отдельный CLI-процесс без общего контекста, общающийся только через файлы (spec.md, eval-report.md). Evaluator использует Playwright для просмотра живого сайта, а не просто чтения кода.
Ключевые детали архитектуры
- Чистый лист при каждом запуске: Каждый агент стартует с нуля, читает только свои входные файлы. Предотвращает "контекстную тревогу".
- Playwright MCP для тестирования: Навигация, клики, изменение размеров окна. Выявляет визуальные баги, которые никогда не нашёл бы код-ревью.
- Навык фронтенд-дизайна Anthropic: Явно штрафует типичные AI-шаблоны (шрифт Inter, фиолетовые градиенты, карточные макеты). Поощряет творческий риск.
- Непрерывная итерация, а не повтор при ошибке: Все 12 раундов выполняются независимо. Каждый улучшает результат.
Результаты и статистика
Итерация 1: функционально, но безлико. Итерация 4: генератор переключился на "Terminal Noir" — IBM Plex Mono, янтарный на чёрном, текстура зерна, линии развертки. Итерации 5–12: полировка, доступность, адаптивность, поддержка уменьшения движения.
- Общее время: 3 ч 20 мин
- Итерации: 12 (генератор + оценщик каждый)
- Кода написано вручную: 0 строк (несколько визуальных проблем исправлено после)
- Технологии: Next.js, Tailwind, Framer Motion, TypeScript
Результат вживую
https://mnemo-mcp.github.io/Mnemo/
Главный вывод
Модель — это двигатель. Обвязка — ограничения, обратная связь и состязательная структура — определяет, получите ли вы AI-мусор или нечто действительно уникальное.
📖 Читать полный источник: r/ClaudeAI
👀 Смотрите также

Практические примеры использования OpenClaw от сообщества
Разработчики и команды используют OpenClaw для холодных рассылок, автоматизации SEO-контента, управления социальными сетями, запросов данных клиентов, тестирования веб-сайтов, мониторинга серверов, обработки чеков, переговоров о покупке автомобилей, создания глав подкастов и ежедневного планирования целей.

Разработчик создает самообучающуюся систему для контента в LinkedIn с помощью навыков Claude
Фрилансер в сфере B2B-маркетинга создал систему из двух навыков Claude для контента в LinkedIn, которая пишет в его стиле и улучшается на основе данных о производительности, обеспечив 110 тыс. показов для 3 постов за неделю.

Бенчмарк против продакшена: когда тесты ИИ-агентов проходят, а реальные рабочие процессы дают сбой
Разработчик переключил производственные ИИ-агенты с Claude Sonnet на более дешёвые модели Grok и MiniMax после того, как они прошли бенчмарк-тесты, но обе модели провалились в продакшене из-за проблем с операционной надёжностью, которые не были охвачены бенчмарками.

Практический опыт замены стека автоматизации на MCP-серверы и локальные LLM.
Разработчик делится результатами 4 месяцев работы персональной инфраструктуры автоматизации с использованием MCP-серверов с моделями Qwen 2.5 32B и Llama 3.3 70B на оборудовании с двумя видеокартами 3090, подробно описывая, что работает хорошо, а что нет.