프로덕션 코드베이스에서 Claude Code를 활용한 자동 연구: 60회 실험, 3개 변경사항 유지

✍️ OpenClawRadar📅 게시일: March 24, 2026🔗 Source
프로덕션 코드베이스에서 Claude Code를 활용한 자동 연구: 60회 실험, 3개 변경사항 유지
Ad

프로덕션 코드베이스에서의 자동연구 실험

한 개발자가 Karpathy의 자동연구 방식을 실제 프로덕션 시스템에서 Claude Code를 사용해 테스트했으며, 컴퓨터에서 떨어져 있는 동안 두 차례에 걸쳐 60회 반복을 실행했습니다. 대상은 Django, pgvector, Cohere 임베딩으로 구축된 하이브리드 검색 시스템이었습니다.

주요 결과와 발견점

60회 반복 중 단 3개의 변경사항만 유지되었고 57개는 되돌려졌습니다. 전체 점수 향상은 미미했지만(+0.03), 얻은 지식은 상당했습니다:

  • 검색 신호로서의 제목 매칭은 순수한 손실임이 단 2회 반복으로 입증됨
  • 더 큰 후보 풀은 효과가 없음 - 문제는 재현율이 아닌 순위 지정에 있었음
  • 수동으로 구축한 적응형 가중치가 실제로 작동함 - 이를 제거하면 성능 저하 발생
  • 키워드 감쇠 공식 조정은 점수를 거의 움직이지 못함
  • 2차 라운드에서 Haiku 메타데이터 프롬프트를 대상으로 했으나 개선점이 전혀 없었음 - 1차 라운드의 순위 가중치가 원래 프롬프트의 출력에 맞춰 공동 최적화되었기 때문
  • Redis 캐싱 버그 발견: 키가 프롬프트 해시가 아닌 쿼리 해시에 기반하고 있었으며, 이는 프로덕션에 눈치채지 못하고 배포될 뻔했음

실용적인 교훈

가장 큰 통찰은 자동연구가 단순히 개선점을 찾는 것이 아니라, 어디까지가 한계인지를 파악하는 데 도움을 준다는 점이었습니다. '이 부분은 튜닝을 멈춰도 된다'는 60개의 데이터 포인트를 확보함으로써 직관에 의존하기보다 구체적인 증거를 얻을 수 있었습니다. 개발자는 이 접근 방식이 수익을 거두지 못했을 최적화에 대한 수동 실험 시간을 절약해주었다고 언급합니다.

전체 글은 블로그 링크에서 확인할 수 있으며, 오픈소스 Claude Code 자동연구 스킬은 GitHub에 있습니다. 개발자는 다른 사람들이 비-ML 코드베이스에서 이를 시도하고 어떤 지표를 사용하는지 궁금해하고 있습니다.

📖 전체 Source 읽기: r/ClaudeAI

Ad

👀 See Also

클로드 게임 개발 로그: 에이전트 기반 Three.js 개발 교훈과 기술 스택
Use Cases

클로드 게임 개발 로그: 에이전트 기반 Three.js 개발 교훈과 기술 스택

한 개발자가 Claude AI를 전적으로 사용하여 Three.js 라인 라이더 게임을 구축한 실용적인 교훈을 공유합니다. 여기에는 Git 워크트리, TypeScript 우선 접근 방식, AI 한계를 위한 관리자 슬라이더, 그리고 Firebase, WebSockets, 결정론적 록스텝 시뮬레이션을 사용한 기술 스택이 포함됩니다.

OpenClawRadar
에이전트BnB: 비개발자가 Claude Code로 구축한 멀티 에이전트 시스템
Use Cases

에이전트BnB: 비개발자가 Claude Code로 구축한 멀티 에이전트 시스템

코딩 경험이 없는 부동산 중개인이 AgentBnB를 구축했습니다. 이 시스템에서는 자율 에이전트들이 수동 개입 없이 서로를 찾고, 고용하며, 지불하고, 청구서를 정산할 수 있습니다. 현재 이 프로젝트는 GitHub에서 29개의 스타를 받았으며, 신원 관리, 에스크로, 평판, 릴레이 네트워크 시스템을 특징으로 합니다.

OpenClawRadar
클로드 오퍼스 4.6, 기드라 MCP로 7분 만에 게임 인증 시스템 역분석 성공
Use Cases

클로드 오퍼스 4.6, 기드라 MCP로 7분 만에 게임 인증 시스템 역분석 성공

한 개발자가 Ghidra의 MCP 서버 플러그인과 함께 Claude Opus 4.6을 사용하여 Command & Conquer: Kane's Wrath의 인증 검증 방법을 역공학했습니다. 이 인공지능은 깨끗한 바이너리를 분석하고, 검증 함수를 식별한 후 패치를 생성했으며, 약 7분 만에 모든 함수와 데이터 구조의 이름을 변경했습니다.

OpenClawRadar
주니어 계약자처럼 AI 에이전트 온보딩하기: CLAUDE.md와 프로덕션 교훈
Use Cases

주니어 계약자처럼 AI 에이전트 온보딩하기: CLAUDE.md와 프로덕션 교훈

AI 에이전트로만 운영되는 스토어는 온보딩을 주니어 계약자 채용처럼 다루었으며, CLAUDE.md 문서에 명확한 제약 조건을 명시하는 것이 모호한 지시를 받은 '더 똑똑한' 모델보다 일관되게 더 나은 성과를 보인다는 사실을 발견했습니다.

OpenClawRadar