3,400개 테스트 대참사: AI TDD 파이프라인 실패 원인과 해결법

문제: 대규모의 문자 그대로 해석

한 개발자가 Claude Code를 사용해 다중 에이전트 TDD 파이프라인을 만들었습니다. 각 에이전트는 특정 작업을 담당합니다: 하나는 테스트를 작성하고, 하나는 테스트를 통과하는 코드를 작성하며, 하나는 모든 것을 검토하고, 하나는 경계 사례를 찾습니다. 초기 지시는 간단했습니다: "모든 것에 대한 테스트를 작성하라."

시스템은 작동하는 것처럼 보였습니다. 테스트 수는 계속 증가했고 CI는 정상 상태였습니다. 그러나 감사 결과 생성된 3,400개의 테스트에 문제가 있음이 드러났습니다:

44% 유효함
30% 재작업 필요
26% 완전히 쓸모없음

쓸모없는 테스트에는 다음이 포함되었습니다:

JSON 설정 객체를 구성한 후 그것이 자기 자신과 동일하다고 주장하는 테스트
TypeScript 인터페이스가 올바른 형태를 갖추었는지 확인하기 위해 객체를 구성하고 방금 구성한 것과 일치한다고 주장하는 테스트
절대 변경되지 않을 정적 파일에 대한 테스트

개발자는 거의 20,000줄의 테스트 코드를 삭제하고 핵심 문제를 파악했습니다: "Claude가 실수한 게 아닙니다. 제가 실수했습니다. 저는 '모든 것에 대한 테스트를 작성하라'고 말했고, 그것은 제 말을 명확히 이해했습니다. 모든 파일, 모든 설정, 모든 타입 정의. 제 지시가 문제였고, 에이전트는 그것을 완벽히 따랐습니다."

해결책: 분류와 검토

해결책에는 두 가지 주요 변경 사항이 포함되었습니다:

1. 테스트 전 작업 항목 분류:

기능에는 3-5개의 동작 테스트 적용 (이것이 실제로 작동하는가?)
작업에는 1-2개의 스모크 테스트 적용 (명백한 것을 망가뜨렸는가?)
버그에는 2-3개의 회귀 테스트 적용 (이 특정 버그가 다시 발생할 것인가?)
개선 사항은 새롭거나 변경된 동작만 테스트

2. 검토 에이전트 추가: 별도의 에이전트가 테스트와 구현을 새로운 맥락으로 살펴보며, 작성 에이전트가 자신의 출력에 너무 가까워서 놓친 문제를 포착합니다.

수정 후 결과

3,400개 테스트에서 2,525개로 감소
실행 시간 117초에서 약 50초로 단축
남은 모든 테스트가 실제 동작을 검증

핵심 통찰

"AI 에이전트로 구축하는 것은 당신의 부주의한 사고를 대규모로 가시화합니다. 인간이 나쁜 테스트를 작성하면 몇 개의 나쁜 테스트를 얻습니다. 수백 개의 작업 항목을 처리하는 에이전트 파이프라인에 나쁜 지시를 내리면? 수백 개의 나쁜 테스트를 얻습니다. 같은 나쁜 사고, 단지 그것이 접촉하는 모든 것에 걸쳐 증폭된 것입니다. 사고를 고치면 출력이 고쳐집니다."

📖 전체 Source 읽기: r/ClaudeAI