Replicando el arnés generador-evaluador de Anthropic con Kiro CLI: una construcción de sitio web de 12 iteraciones

Un desarrollador replicó el diseño de arnés Generador-Evaluador de Anthropic para aplicaciones de larga duración, inspirado en las GANs. La arquitectura: un Planificador (se ejecuta una vez) y luego un bucle Generador ↔ Evaluador durante 12 iteraciones. Cada agente es un proceso CLI separado sin contexto compartido, comunicándose solo a través de archivos (spec.md, eval-report.md). El Evaluador usa Playwright para navegar por el sitio en vivo, no solo leer el código.
Detalles clave de la arquitectura
- Pizarra limpia por invocación: Cada agente comienza de nuevo, leyendo solo sus archivos de entrada. Previene la ansiedad de contexto.
- Playwright MCP para pruebas: Navega, hace clic, cambia el tamaño de las ventanas. Detecta errores visuales que una revisión de código nunca encontraría.
- Habilidad de diseño frontend de Anthropic: Penaliza explícitamente los patrones genéricos de IA (fuente Inter, gradientes morados, diseños de tarjetas). Fomenta la toma de riesgos creativa.
- Iteración continua, sin reintento tras fallo: Las 12 rondas se ejecutan independientemente. Cada una mejora.
Resultados y estadísticas
Iteración 1: funcional pero olvidable. Iteración 4: el Generador cambió a "Terminal Noir" — IBM Plex Mono, ámbar sobre negro, texturas de grano, líneas de barrido. Iteraciones 5-12: pulido, accesibilidad, correcciones responsivas, soporte de movimiento reducido.
- Tiempo total: 3h 20min
- Iteraciones: 12 (generador + evaluador cada una)
- Código escrito manualmente: 0 líneas (algunos problemas visuales corregidos después)
- Tecnología: Next.js, Tailwind, Framer Motion, TypeScript
Resultado en vivo
https://mnemo-mcp.github.io/Mnemo/
Conclusión clave
El modelo es el motor. El arnés (restricciones, bucles de retroalimentación y estructura adversarial) determina si obtienes basura de IA o algo genuinamente distintivo.
📖 Lee la fuente completa: r/ClaudeAI
👀 Ver también

Informes de investigación profunda con Hermes Agent y Qwen3.6-35b-a3b: Un recorrido práctico
Un investigador social comparte su flujo de trabajo usando Hermes Agent y qwen3.6-35b-a3b Q6_K para producir informes de políticas de 21 páginas de forma autónoma, con repositorio completo de prompts, habilidades y artefactos intermedios.

La configuración multiagente desencadena cargos de $3,400 debido a un bucle de alucinación.
Un desarrollador codificó una tarjeta virtual corporativa en variables de entorno para probar una configuración de MCP multiagente, lo que resultó en cargos de $3,400 cuando un agente principal quedó atrapado en un bucle de alucinación que generaba nuevas instancias de proxy pagadas cada 45 segundos durante 14 horas.

Código de Claude Utilizado para Ingeniería Inversa de Disney Infinity 1.0, Rompiendo la Restricción de 13 Años en Personajes
Un desarrollador utilizó Claude Code (Opus 4.6 con alto razonamiento) para realizar ingeniería inversa del binario del juego Disney Infinity 1.0, identificando y parcheando 13 sitios de llamada de validación que impedían que los personajes jugaran en cualquier set de juego. La solución requirió 17 parches binarios y 3 archivos de datos modificados, resolviendo un problema que la comunidad de modding no había podido resolver durante más de una década.

Qwen 3.6 27B Q8_k_xl como controlador diario local para VSCode
Un desarrollador comparte su experiencia usando Qwen-3.6-27B-q8_k_xl de Unsloth en VSCode Insiders a través de LM Studio en una RTX 6000 Pro, encontrándolo "suficientemente bueno" para tareas diarias de codificación sin necesidad de tokens de API.