3,400 pruebas fallidas: Cómo arreglar tu canalización TDD de IA

El Problema: Interpretación Literal a Escala

Un desarrollador creó una canalización TDD multiagente usando Claude Code, con diferentes agentes manejando trabajos específicos: uno escribe pruebas, otro escribe código para pasarlas, otro revisa todo y otro busca casos límite. La instrucción inicial fue simple: "escribe pruebas para todo".

El sistema parecía funcionar: el conteo de pruebas seguía aumentando y el CI estaba en verde. Sin embargo, una auditoría reveló problemas con las 3,400 pruebas generadas:

44% válidas
30% necesitaban rehacerse
26% basura completa

Las pruebas basura incluían:

Pruebas que construían un objeto JSON de configuración y luego afirmaban que era igual a sí mismo
Pruebas que verificaban si una interfaz TypeScript tenía la forma correcta construyendo el objeto y afirmando que coincidía con lo que acababan de construir
Pruebas para archivos estáticos que nunca cambiarán

El desarrollador eliminó casi 20,000 líneas de código de prueba e identificó el problema central: "Claude no falló. Yo lo hice. Dije 'escribe pruebas para todo' y me escuchó alto y claro. Cada archivo. Cada configuración. Cada definición de tipo. Mis instrucciones fueron el problema, y el agente las siguió perfectamente".

La Solución: Clasificación y Revisión

La solución involucró dos cambios clave:

1. Clasificar elementos de trabajo antes de probar:

Las características obtienen 3-5 pruebas de comportamiento (¿esta cosa realmente funciona?)
Las tareas obtienen 1-2 pruebas de humo (¿rompió algo obvio?)
Los errores obtienen 2-3 pruebas de regresión (¿volverá este error específico?)
Las mejoras solo prueban comportamiento nuevo o cambiado

2. Agregar un agente de revisión: Un agente separado examina tanto las pruebas como la implementación con contexto fresco, detectando problemas que los agentes escritores pasaron por alto porque estaban demasiado cerca de su propia salida.

Resultados Después de la Solución

3,400 pruebas reducidas a 2,525
Tiempo de ejecución bajó de 117 segundos a ~50 segundos
Cada prueba restante valida comportamiento real

Perspectiva Clave

"Construir con agentes de IA hace que tu pensamiento descuidado sea visible a escala. Un humano escribe malas pruebas, obtienes algunas malas pruebas. ¿Das una mala instrucción a una canalización de agentes procesando cientos de elementos de trabajo? Obtienes cientos de malas pruebas. El mismo mal pensamiento, solo amplificado a través de todo lo que toca. Arregla el pensamiento, arregla la salida."

📖 Read the full source: r/ClaudeAI

Canalización TDD de IA: Cómo las instrucciones deficientes generaron 3,400 pruebas y qué lo solucionó

El Problema: Interpretación Literal a Escala

La Solución: Clasificación y Revisión

Resultados Después de la Solución

Perspectiva Clave

👀 Ver también

Desarrollador envía 6 PRs desde el móvil en una fiesta — los agentes hicieron el trabajo

Desarrollador en Solitario Construye Herramienta de Inteligencia para Visas H-1B con Claude Code

Usando OpenClaw con herramientas de video de IA para escalar la creación de contenido de formato corto.

Lecciones Prácticas de la Construcción de un Agente de IA para Comercio Electrónico con OpenClaw