Clonando o harness gerador-avaliador da Anthropic com Kiro CLI: Construção de site em 12 iterações

Um desenvolvedor replicou o design do harness Generator-Avaliador da Anthropic para aplicativos de longa duração, inspirado em GANs. A arquitetura: um Planejador (executado uma vez) e depois um loop Generator ↔ Avaliador por 12 iterações. Cada agente é um processo CLI separado com contexto compartilhado zero, comunicando-se apenas por meio de arquivos (spec.md, eval-report.md). O Avaliador usa Playwright para navegar no site ao vivo — não apenas ler o código.
Detalhes Principais da Arquitetura
- Página limpa por invocação: Cada agente começa do zero, lê apenas seus arquivos de entrada. Previne ansiedade de contexto.
- Playwright MCP para teste: Navega, clica, redimensiona viewports. Captura bugs visuais que a revisão de código nunca pegaria.
- Habilidade de design frontend da Anthropic: Penaliza explicitamente padrões genéricos de IA (fonte Inter, gradientes roxos, layouts de cartão). Força a tomada de riscos criativa.
- Iteração contínua, não repetir em caso de falha: Todas as 12 rodadas são executadas independentemente. Cada uma melhora.
Resultados e Estatísticas
Iteração 1: funcional, mas esquecível. Iteração 4: O Generator mudou para "Terminal Noir" — IBM Plex Mono, âmbar sobre preto, texturas de grão, scanlines. Iterações 5-12: polimento, acessibilidade, correções responsivas, suporte a movimento reduzido.
- Tempo total: 3h 20min
- Iterações: 12 (generator + avaliador cada)
- Linhas de código escritas manualmente: 0 (alguns problemas visuais corrigidos depois)
- Tecnologias: Next.js, Tailwind, Framer Motion, TypeScript
Resultado ao Vivo
https://mnemo-mcp.github.io/Mnemo/
Principal Conclusão
O modelo é o motor. O harness — restrições, loops de feedback e estrutura adversarial — determina se você obtém porcaria de IA ou algo genuinamente distinto.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

Boletim informativo de IA autônomo construído com agentes OpenClaw
Uma equipe criou um boletim informativo semanal sobre agentes de IA que funciona inteiramente com agentes OpenClaw, distribuídos em 5 agentes e 3 máquinas. O boletim é projetado para ser consumido por outros agentes de IA via API REST e webhooks.

Desenvolvedor cria aplicativo bancário para macOS com Claude Code em 6 semanas
Um desenvolvedor criou o simplebanking, um aplicativo gratuito e de código aberto para macOS que fica na barra de menus e é voltado para bancos alemães, utilizando o Claude Code. O app mostra saldos em tempo real de múltiplas contas, oferece busca de transações, detecção de assinaturas e mantém todos os dados localmente.

Não desenvolvedor constrói SaaS de saúde em 3 semanas usando Claude e Gemini: lições aprendidas
Um representante de vendas de dispositivos médicos sem experiência em programação criou o FastCredentials.com, uma plataforma de credenciamento de conformidade em saúde, em três semanas usando assistentes de programação com IA. O projeto utilizou Python/Django, Gunicorn, Nginx, Stripe, WeasyPrint, SQLite e a API Claude para conteúdo automatizado de blog.

Testando o OpenClaw para Planejamento de Viagens Multipaíses com Integração MoLOS
Um desenvolvedor testou o OpenClaw com o MoLOS para planejar uma viagem China-Japão, gerando itinerários diários, sugestões de voos/hotéis e mais de 50 tarefas automatizadas, enquanto identificava limitações nos tempos de transporte e validação de atrações.