3.400 Testes com IA: O Erro e a Correção no Pipeline TDD

O Problema: Interpretação Literal em Escala

Um desenvolvedor criou um pipeline TDD multiagente usando Claude Code, com diferentes agentes lidando com tarefas específicas: um escreve testes, um escreve código para passá-los, um revisa tudo e um procura por casos extremos. A instrução inicial era simples: "escreva testes para tudo".

O sistema parecia funcionar - a contagem de testes continuava subindo e o CI estava verde. No entanto, uma auditoria revelou problemas com os 3.400 testes gerados:

44% válidos
30% precisavam de retrabalho
26% lixo completo

Os testes de lixo incluíam:

Testes que construíam um objeto de configuração JSON e então afirmavam que ele era igual a si mesmo
Testes que verificavam se uma interface TypeScript tinha o formato correto construindo o objeto e afirmando que correspondia ao que acabaram de construir
Testes para arquivos estáticos que nunca mudarão

O desenvolvedor excluiu quase 20.000 linhas de código de teste e identificou o problema central: "Claude não errou. Eu errei. Eu disse 'escreva testes para tudo' e ele me ouviu alto e claro. Cada arquivo. Cada configuração. Cada definição de tipo. Minhas instruções eram o problema, e o agente as seguiu perfeitamente."

A Solução: Classificação e Revisão

A correção envolveu duas mudanças principais:

1. Classificar itens de trabalho antes dos testes:

Funcionalidades recebem 3-5 testes comportamentais (essa coisa realmente funciona?)
Tarefas recebem 1-2 testes de fumaça (quebrou algo óbvio?)
Bugs recebem 2-3 testes de regressão (esse bug específico voltará?)
Melhorias testam apenas comportamento novo ou alterado

2. Adicionar um agente de revisão: Um agente separado examina tanto os testes quanto a implementação com contexto novo, capturando problemas que os agentes de escrita perderam porque estavam muito próximos de sua própria saída.

Resultados Após a Correção

3.400 testes reduzidos para 2.525
Tempo de execução caiu de 117 segundos para ~50 segundos
Cada teste restante valida comportamento real

Insight Principal

"Construir com agentes de IA torna seu pensamento descuidado visível em escala. Um humano escreve testes ruins, você obtém alguns testes ruins. Dê uma instrução ruim para um pipeline de agentes processando centenas de itens de trabalho? Você obtém centenas de testes ruins. O mesmo pensamento ruim, apenas amplificado por tudo o que toca. Corrija o pensamento, corrija a saída."

📖 Leia a fonte completa: r/ClaudeAI

Pipeline de TDD com IA: Como Instruções Ruins Criaram 3.400 Testes e o Que os Corrigiu

O Problema: Interpretação Literal em Escala

A Solução: Classificação e Revisão

Resultados Após a Correção

Insight Principal

👀 See Also

Otimização de Custos do Agente OpenClaw com Otimização de DOM e Monitoramento por Painel

Experiência de Engenheiro de TI com Desenvolvimento Assistido por IA Revela Armadilhas Comuns

VibecodedHub: Uma Plataforma de Descoberta Construída Integralmente com Claude Code

Usei OpenClaw para corrigir script de rastreamento de despesas – Capturei lógica de assinatura que perdi