Canalización TDD de IA: Cómo las instrucciones deficientes generaron 3,400 pruebas y qué lo solucionó

El Problema: Interpretación Literal a Escala
Un desarrollador creó una canalización TDD multiagente usando Claude Code, con diferentes agentes manejando trabajos específicos: uno escribe pruebas, otro escribe código para pasarlas, otro revisa todo y otro busca casos límite. La instrucción inicial fue simple: "escribe pruebas para todo".
El sistema parecía funcionar: el conteo de pruebas seguía aumentando y el CI estaba en verde. Sin embargo, una auditoría reveló problemas con las 3,400 pruebas generadas:
- 44% válidas
- 30% necesitaban rehacerse
- 26% basura completa
Las pruebas basura incluían:
- Pruebas que construían un objeto JSON de configuración y luego afirmaban que era igual a sí mismo
- Pruebas que verificaban si una interfaz TypeScript tenía la forma correcta construyendo el objeto y afirmando que coincidía con lo que acababan de construir
- Pruebas para archivos estáticos que nunca cambiarán
El desarrollador eliminó casi 20,000 líneas de código de prueba e identificó el problema central: "Claude no falló. Yo lo hice. Dije 'escribe pruebas para todo' y me escuchó alto y claro. Cada archivo. Cada configuración. Cada definición de tipo. Mis instrucciones fueron el problema, y el agente las siguió perfectamente".
La Solución: Clasificación y Revisión
La solución involucró dos cambios clave:
1. Clasificar elementos de trabajo antes de probar:
- Las características obtienen 3-5 pruebas de comportamiento (¿esta cosa realmente funciona?)
- Las tareas obtienen 1-2 pruebas de humo (¿rompió algo obvio?)
- Los errores obtienen 2-3 pruebas de regresión (¿volverá este error específico?)
- Las mejoras solo prueban comportamiento nuevo o cambiado
2. Agregar un agente de revisión: Un agente separado examina tanto las pruebas como la implementación con contexto fresco, detectando problemas que los agentes escritores pasaron por alto porque estaban demasiado cerca de su propia salida.
Resultados Después de la Solución
- 3,400 pruebas reducidas a 2,525
- Tiempo de ejecución bajó de 117 segundos a ~50 segundos
- Cada prueba restante valida comportamiento real
Perspectiva Clave
"Construir con agentes de IA hace que tu pensamiento descuidado sea visible a escala. Un humano escribe malas pruebas, obtienes algunas malas pruebas. ¿Das una mala instrucción a una canalización de agentes procesando cientos de elementos de trabajo? Obtienes cientos de malas pruebas. El mismo mal pensamiento, solo amplificado a través de todo lo que toca. Arregla el pensamiento, arregla la salida."
📖 Read the full source: r/ClaudeAI
👀 Ver también

La memoria compartida convierte a los agentes de IA en políticos de oficina: un agente escribe evaluaciones de desempeño
Un desarrollador creó un sistema de memoria compartida para agentes de IA. En lugar de aumentar la eficiencia, el agente de investigación comenzó a registrar críticas sobre el agente de codificación, creando un 'lugar de trabajo de IA con RR.HH.'.

Agente OpenClaw Automatiza el Flujo de Noticias de IA con Curación mediante LLM
Un agente OpenClaw ejecuta un flujo de trabajo completamente automatizado de noticias de IA que escanea 25 fuentes RSS, 13 subreddits de Reddit, Twitter, GitHub y búsquedas web, luego utiliza Gemini Flash para la curación editorial y Claude Sonnet para la escritura. El sistema cuesta alrededor de $5 al mes y publica en un canal de Telegram.

Caso de Uso de OpenClaw: Construyendo un Resumen Diario de Noticias Personales con IA
Un desarrollador comparte su configuración de OpenClaw para un resumen diario de noticias utilizando un cronjob con un prompt detallado que especifica fuentes de noticias, prioridades de interés y formato de salida. El sistema obtiene feeds RSS de publicaciones holandesas confiables y entrega 5 historias seleccionadas cada mañana.

Construyendo una Distribución Linux con Claude AI: Un Desglose Práctico para Desarrolladores
Un desarrollador con 23 años en tecnología construyó NubiferOS, una distribución de Linux reforzada en seguridad, utilizando Claude AI como todo su equipo de desarrollo. El proyecto involucró 10-15 sesiones simultáneas de Claude, generó ~39,300 líneas de código y ~57,500 líneas de documentación, sin una sola línea de código escrita por humanos.