Pipeline TDD IA : 3400 tests, 44% valides, comment corriger

Le Problème : Interprétation Littérale à Grande Échelle

Un développeur a créé un pipeline TDD multi-agents en utilisant Claude Code, avec différents agents gérant des tâches spécifiques : un écrit les tests, un écrit le code pour les réussir, un révise tout, et un recherche les cas limites. L'instruction initiale était simple : "écrire des tests pour tout".

Le système semblait fonctionner - le nombre de tests augmentait et l'intégration continue était verte. Cependant, un audit a révélé des problèmes avec les 3 400 tests générés :

44 % valides
30 % nécessitaient des retouches
26 % étaient complètement inutiles

Les tests inutiles incluaient :

Des tests qui construisaient un objet de configuration JSON puis affirmaient qu'il était égal à lui-même
Des tests qui vérifiaient si une interface TypeScript avait la bonne forme en construisant l'objet et en affirmant qu'il correspondait à ce qu'ils venaient de construire
Des tests pour des fichiers statiques qui ne changeront jamais

Le développeur a supprimé près de 20 000 lignes de code de test et a identifié le problème central : "Claude n'a pas fait d'erreur. C'est moi. J'ai dit 'écrire des tests pour tout' et il m'a parfaitement compris. Chaque fichier. Chaque configuration. Chaque définition de type. Mes instructions étaient le problème, et l'agent les a suivies parfaitement."

La Solution : Classification et Revue

La correction a impliqué deux changements clés :

1. Classifier les éléments de travail avant les tests :

Les fonctionnalités obtiennent 3-5 tests comportementaux (est-ce que cette chose fonctionne réellement ?)
Les tâches obtiennent 1-2 tests de fumée (est-ce que cela a cassé quelque chose d'évident ?)
Les bugs obtiennent 2-3 tests de régression (est-ce que ce bug spécifique reviendra ?)
Les améliorations ne testent que le comportement nouveau ou modifié

2. Ajouter un agent de revue : Un agent séparé examine à la fois les tests et l'implémentation avec un contexte frais, détectant les problèmes que les agents d'écriture ont manqués car ils étaient trop proches de leur propre production.

Résultats Après la Correction

3 400 tests réduits à 2 525
Temps d'exécution réduit de 117 secondes à environ 50 secondes
Chaque test restant valide un comportement réel

Insight Clé

"Construire avec des agents IA rend votre pensée approximative visible à grande échelle. Un humain écrit de mauvais tests, vous obtenez quelques mauvais tests. Donnez une mauvaise instruction à un pipeline d'agents traitant des centaines d'éléments de travail ? Vous obtenez des centaines de mauvais tests. La même mauvaise pensée, simplement amplifiée à travers tout ce qu'elle touche. Corrigez la pensée, corrigez la production."

📖 Read the full source: r/ClaudeAI

Pipeline TDD IA : Comment de mauvaises instructions ont créé 3 400 tests et ce qui a permis de les corriger

Le Problème : Interprétation Littérale à Grande Échelle

La Solution : Classification et Revue

Résultats Après la Correction

Insight Clé

👀 See Also

Non-codeur crée un téléchargeur vidéo local avec Claude AI en une soirée

Développeur Utilise l'IA Claude pour le Développement de Jeux en C++ dans Unreal Engine

Claude comme assistant d'écriture de mémoires pour un utilisateur de 80 ans : cas d'usage pratiques et limites

Utilisateur de Reddit partage la configuration Claude Code pour des projets de portfolio