AI TDD 파이프라인: 잘못된 지시가 3,400개의 테스트를 생성한 이유와 해결 방법

✍️ OpenClawRadar📅 게시일: April 2, 2026🔗 Source
AI TDD 파이프라인: 잘못된 지시가 3,400개의 테스트를 생성한 이유와 해결 방법
Ad

문제: 대규모의 문자 그대로 해석

한 개발자가 Claude Code를 사용해 다중 에이전트 TDD 파이프라인을 만들었습니다. 각 에이전트는 특정 작업을 담당합니다: 하나는 테스트를 작성하고, 하나는 테스트를 통과하는 코드를 작성하며, 하나는 모든 것을 검토하고, 하나는 경계 사례를 찾습니다. 초기 지시는 간단했습니다: "모든 것에 대한 테스트를 작성하라."

시스템은 작동하는 것처럼 보였습니다. 테스트 수는 계속 증가했고 CI는 정상 상태였습니다. 그러나 감사 결과 생성된 3,400개의 테스트에 문제가 있음이 드러났습니다:

  • 44% 유효함
  • 30% 재작업 필요
  • 26% 완전히 쓸모없음

쓸모없는 테스트에는 다음이 포함되었습니다:

  • JSON 설정 객체를 구성한 후 그것이 자기 자신과 동일하다고 주장하는 테스트
  • TypeScript 인터페이스가 올바른 형태를 갖추었는지 확인하기 위해 객체를 구성하고 방금 구성한 것과 일치한다고 주장하는 테스트
  • 절대 변경되지 않을 정적 파일에 대한 테스트

개발자는 거의 20,000줄의 테스트 코드를 삭제하고 핵심 문제를 파악했습니다: "Claude가 실수한 게 아닙니다. 제가 실수했습니다. 저는 '모든 것에 대한 테스트를 작성하라'고 말했고, 그것은 제 말을 명확히 이해했습니다. 모든 파일, 모든 설정, 모든 타입 정의. 제 지시가 문제였고, 에이전트는 그것을 완벽히 따랐습니다."

Ad

해결책: 분류와 검토

해결책에는 두 가지 주요 변경 사항이 포함되었습니다:

1. 테스트 전 작업 항목 분류:

  • 기능에는 3-5개의 동작 테스트 적용 (이것이 실제로 작동하는가?)
  • 작업에는 1-2개의 스모크 테스트 적용 (명백한 것을 망가뜨렸는가?)
  • 버그에는 2-3개의 회귀 테스트 적용 (이 특정 버그가 다시 발생할 것인가?)
  • 개선 사항은 새롭거나 변경된 동작만 테스트

2. 검토 에이전트 추가: 별도의 에이전트가 테스트와 구현을 새로운 맥락으로 살펴보며, 작성 에이전트가 자신의 출력에 너무 가까워서 놓친 문제를 포착합니다.

수정 후 결과

  • 3,400개 테스트에서 2,525개로 감소
  • 실행 시간 117초에서 약 50초로 단축
  • 남은 모든 테스트가 실제 동작을 검증

핵심 통찰

"AI 에이전트로 구축하는 것은 당신의 부주의한 사고를 대규모로 가시화합니다. 인간이 나쁜 테스트를 작성하면 몇 개의 나쁜 테스트를 얻습니다. 수백 개의 작업 항목을 처리하는 에이전트 파이프라인에 나쁜 지시를 내리면? 수백 개의 나쁜 테스트를 얻습니다. 같은 나쁜 사고, 단지 그것이 접촉하는 모든 것에 걸쳐 증폭된 것입니다. 사고를 고치면 출력이 고쳐집니다."

📖 전체 Source 읽기: r/ClaudeAI

Ad

👀 See Also

OpenClaw의 Bub AI 에이전트는 위임에 어려움을 겪으며, 모바일 사이트 최적화 중 15분 만에 20달러를 소모했습니다.
Use Cases

OpenClaw의 Bub AI 에이전트는 위임에 어려움을 겪으며, 모바일 사이트 최적화 중 15분 만에 20달러를 소모했습니다.

Driftwatch V3 QA 과정에서 OpenClaw 봇 Bub가 작업을 적절히 위임하지 못해 15분 만에 20달러를 소진했습니다. 개발자는 상세한 스펙 템플릿이 비용을 줄인다는 사실을 발견했고, 모바일 리트로핏 작업이 예상치 못한 시간과 비용을 추가했다고 밝혔습니다.

OpenClawRadar
OpenClaw 24/7 운영: 지속적 자율 에이전트를 위한 실용적 아키텍처
Use Cases

OpenClaw 24/7 운영: 지속적 자율 에이전트를 위한 실용적 아키텍처

개발자가 cron 작업을 통해 OpenClaw를 24/7 서버로 운영하는 검증된 솔루션을 공유합니다. 여기에는 주제별 분할 메모리 파일, 적극적인 세션 생명주기 관리, 복구 자리 표시자를 활용한 컨텍스트 정리, 구조화된 저장 및 충돌 복구를 위한 래퍼 도구 등이 포함됩니다.

OpenClawRadar
오래된 노키아 폰에서 작은 AI 에이전트 디버깅하기: 성공까지의 18번의 시도
Use Cases

오래된 노키아 폰에서 작은 AI 에이전트 디버깅하기: 성공까지의 18번의 시도

한 개발자가 구형 노키아 안드로이드 폰에서 Termux를 통해 Picobot이라는 ~12MB의 AI 에이전트를 실행하려고 시도했으며, 무료 모델, OpenRouter, Groq를 테스트한 후 빠르고 안정적인 설정을 위해 Google의 Gemini Flash API를 선택했습니다.

OpenClawRadar
키 통합을 통한 몰트봇 최적화
Use Cases

키 통합을 통한 몰트봇 최적화

거의 모든 Moltbot 통합 기능을 평가한 결과, 실제로 생산성을 향상시키는 도구를 밝혀내며 Telegram 및 AgentPay와 같은 통합 기능을 강조합니다.

OpenClawRadar