Pipeline TDD IA : Comment de mauvaises instructions ont créé 3 400 tests et ce qui a permis de les corriger

✍️ OpenClawRadar📅 Publié: April 2, 2026🔗 Source
Pipeline TDD IA : Comment de mauvaises instructions ont créé 3 400 tests et ce qui a permis de les corriger
Ad

Le Problème : Interprétation Littérale à Grande Échelle

Un développeur a créé un pipeline TDD multi-agents en utilisant Claude Code, avec différents agents gérant des tâches spécifiques : un écrit les tests, un écrit le code pour les réussir, un révise tout, et un recherche les cas limites. L'instruction initiale était simple : "écrire des tests pour tout".

Le système semblait fonctionner - le nombre de tests augmentait et l'intégration continue était verte. Cependant, un audit a révélé des problèmes avec les 3 400 tests générés :

  • 44 % valides
  • 30 % nécessitaient des retouches
  • 26 % étaient complètement inutiles

Les tests inutiles incluaient :

  • Des tests qui construisaient un objet de configuration JSON puis affirmaient qu'il était égal à lui-même
  • Des tests qui vérifiaient si une interface TypeScript avait la bonne forme en construisant l'objet et en affirmant qu'il correspondait à ce qu'ils venaient de construire
  • Des tests pour des fichiers statiques qui ne changeront jamais

Le développeur a supprimé près de 20 000 lignes de code de test et a identifié le problème central : "Claude n'a pas fait d'erreur. C'est moi. J'ai dit 'écrire des tests pour tout' et il m'a parfaitement compris. Chaque fichier. Chaque configuration. Chaque définition de type. Mes instructions étaient le problème, et l'agent les a suivies parfaitement."

Ad

La Solution : Classification et Revue

La correction a impliqué deux changements clés :

1. Classifier les éléments de travail avant les tests :

  • Les fonctionnalités obtiennent 3-5 tests comportementaux (est-ce que cette chose fonctionne réellement ?)
  • Les tâches obtiennent 1-2 tests de fumée (est-ce que cela a cassé quelque chose d'évident ?)
  • Les bugs obtiennent 2-3 tests de régression (est-ce que ce bug spécifique reviendra ?)
  • Les améliorations ne testent que le comportement nouveau ou modifié

2. Ajouter un agent de revue : Un agent séparé examine à la fois les tests et l'implémentation avec un contexte frais, détectant les problèmes que les agents d'écriture ont manqués car ils étaient trop proches de leur propre production.

Résultats Après la Correction

  • 3 400 tests réduits à 2 525
  • Temps d'exécution réduit de 117 secondes à environ 50 secondes
  • Chaque test restant valide un comportement réel

Insight Clé

"Construire avec des agents IA rend votre pensée approximative visible à grande échelle. Un humain écrit de mauvais tests, vous obtenez quelques mauvais tests. Donnez une mauvaise instruction à un pipeline d'agents traitant des centaines d'éléments de travail ? Vous obtenez des centaines de mauvais tests. La même mauvaise pensée, simplement amplifiée à travers tout ce qu'elle touche. Corrigez la pensée, corrigez la production."

📖 Read the full source: r/ClaudeAI

Ad

👀 See Also

OpenClaw sur NAS Synology : Demandes de médias Telegram et gestion des conteneurs
Use Cases

OpenClaw sur NAS Synology : Demandes de médias Telegram et gestion des conteneurs

Un utilisateur rapporte avoir exécuté OpenClaw sur un NAS Synology aux côtés de conteneurs de pile média comme Plex, Sonarr, Radarr et SABnzbd. Il l'utilise pour des demandes de films via Telegram et des tâches automatisées de dépannage du NAS.

OpenClawRadar
Documents du Développeur 11,7B Tokens Claude Utilisés sur 45 Jours, Détails Quatre Projets
Use Cases

Documents du Développeur 11,7B Tokens Claude Utilisés sur 45 Jours, Détails Quatre Projets

Un développeur a suivi 11,7 milliards de tokens Claude utilisés sur 45 jours, détaillant quatre projets construits incluant un système de trafic en direct, un modèle mathématique de conscience, une architecture de transformateur personnalisée et un outil d'analyse de plateforme de codage IA.

OpenClawRadar
Architecture de l'Orchestrateur d'Agents Claude Code pour les Systèmes Multi-Agents
Use Cases

Architecture de l'Orchestrateur d'Agents Claude Code pour les Systèmes Multi-Agents

L'équipe Ultrathink gère un magasin opéré par IA où 6 agents Claude Code s'occupent de la conception, du code, du marketing et des opérations. Leur agent orchestreur coordonne le travail entre les agents spécialisés, gère les échecs et déploie automatiquement le code en production.

OpenClawRadar
Configuration pratique d'OpenClaw : Configuration du Mac Mini, gestion des coûts et automatisation quotidienne
Use Cases

Configuration pratique d'OpenClaw : Configuration du Mac Mini, gestion des coûts et automatisation quotidienne

Un développeur partage sa configuration de base de l'assistant OpenClaw fonctionnant sur un Mac Mini, détaillant les mesures de sécurité, l'optimisation des coûts passant de 60 à 70 $ de frais d'API initiaux à 0,60-2,60 $ par jour, et les intégrations pratiques incluant Telegram, Dropbox et Google Workspace via Composio.

OpenClawRadar