Claude Code 자동 연구 실험: 60회 반복 중 3건만 유지

프로덕션 코드베이스에서의 자동연구 실험

한 개발자가 Karpathy의 자동연구 방식을 실제 프로덕션 시스템에서 Claude Code를 사용해 테스트했으며, 컴퓨터에서 떨어져 있는 동안 두 차례에 걸쳐 60회 반복을 실행했습니다. 대상은 Django, pgvector, Cohere 임베딩으로 구축된 하이브리드 검색 시스템이었습니다.

주요 결과와 발견점

60회 반복 중 단 3개의 변경사항만 유지되었고 57개는 되돌려졌습니다. 전체 점수 향상은 미미했지만(+0.03), 얻은 지식은 상당했습니다:

검색 신호로서의 제목 매칭은 순수한 손실임이 단 2회 반복으로 입증됨
더 큰 후보 풀은 효과가 없음 - 문제는 재현율이 아닌 순위 지정에 있었음
수동으로 구축한 적응형 가중치가 실제로 작동함 - 이를 제거하면 성능 저하 발생
키워드 감쇠 공식 조정은 점수를 거의 움직이지 못함
2차 라운드에서 Haiku 메타데이터 프롬프트를 대상으로 했으나 개선점이 전혀 없었음 - 1차 라운드의 순위 가중치가 원래 프롬프트의 출력에 맞춰 공동 최적화되었기 때문
Redis 캐싱 버그 발견: 키가 프롬프트 해시가 아닌 쿼리 해시에 기반하고 있었으며, 이는 프로덕션에 눈치채지 못하고 배포될 뻔했음

실용적인 교훈

가장 큰 통찰은 자동연구가 단순히 개선점을 찾는 것이 아니라, 어디까지가 한계인지를 파악하는 데 도움을 준다는 점이었습니다. '이 부분은 튜닝을 멈춰도 된다'는 60개의 데이터 포인트를 확보함으로써 직관에 의존하기보다 구체적인 증거를 얻을 수 있었습니다. 개발자는 이 접근 방식이 수익을 거두지 못했을 최적화에 대한 수동 실험 시간을 절약해주었다고 언급합니다.

전체 글은 블로그 링크에서 확인할 수 있으며, 오픈소스 Claude Code 자동연구 스킬은 GitHub에 있습니다. 개발자는 다른 사람들이 비-ML 코드베이스에서 이를 시도하고 어떤 지표를 사용하는지 궁금해하고 있습니다.

📖 전체 Source 읽기: r/ClaudeAI