클로드 코드를 사용하여 12시간 동안 AI 연구 실험 자동화하기

Claude Code를 활용한 자동화된 AI 연구
한 개발자가 Claude Code를 사용해 12시간 동안 연속으로 AI 연구 실험을 자동화한 과정을 문서화했습니다. 이 프로젝트는 자가 증류를 통해 컨텍스트를 가중치로 이동시키는 실시간 지속 학습 프레임워크인 CLaaS에 초점을 맞췄습니다.
실험 설정
목표는 자가 증류 학습 실행을 튜닝하여 간결한 응답과 이모지 사용 금지와 같은 다양한 선호 검증기에 대한 모델의 준수율을 최대화하는 것이었습니다. 실험은 RTX 5090에서 밤새 로컬로 실행되었습니다.
시스템 아키텍처
저장소는 높은 구성 가능성을 갖도록 구축되었습니다:
- Hydra 구성 관리를 통해 CLI로 모든 튜닝 가능한 매개변수 노출
- 각 학습 단계와 평가 실행을 위한 HTML 대시보드
- 대시보드를 통해 메트릭, 입력 및 출력 관찰 가능
- Claude Code가 curl 요청을 통해 대시보드를 조회하며 진행 상황 확인
실험 관리
워크플로우는 구체적인 규칙이 포함된 로컬 EXPERIMENTS.md 파일로 제어되었습니다:
- 각 실험은 최대 하나의 변수 변경 또는 하나의 코드 변경만 가능
- 실험 사이에 모델은 결과에 따라 이전 변경 사항을 수락하거나 되돌려야 함
- 새로운 코드 변경 사항은 향후 튜닝을 위해 구성으로 노출되어야 함
- 모델은 진행 상황, 가설 및 결과를 실행 일지로 파일에 기록
- 선호 준수율 최대화를 목표로 "Ralph Wiggum 루프" 사용
결과
12시간 동안 시스템은 9개의 실험을 실행했습니다:
- 첫 실행에서 모델 붕괴 버그 발견 및 수정
- 배치당 그래디언트 단계를 4로 튜닝
- 학습률을 3e-5로 튜닝
- 준수율이 0.000에서 1.000으로 향상
- 대부분의 시간이 실험 사이의 학습 실행 대기에 소요되어 토큰 사용량이 예상보다 낮음
동일한 작업을 Codex로도 2시간 동안 일반 프롬프트를 사용해 실행했으며, 독립적으로 동일한 하이퍼파라미터에 수렴했습니다.
프로젝트 저장소: https://github.com/kfallah/CLaaS
📖 전체 출처 읽기: r/ClaudeAI
👀 See Also

인도주의적 AI에서 any-guardrail을 활용한 다국어 가드레일 평가
Mozilla의 any-guardrail 도구는 인도적 LLM에서 다국어 가드레일을 평가하며, 작업 및 도메인 특이성에 초점을 맞춥니다.

일괄 처리 API: 다중 파일 코드 변경에 비용 효율적
한 개발자가 Claude Sonnet과 Opus를 사용한 배치 처리로 30개 이상의 파일을 수정하고 약 £2에 3천 줄의 코드를 생성한 경험을 공유하며, 구체적인 프롬프트와 Repomix를 통한 콘텐츠 수집, Minimax를 통한 정리 작업 등 도구 활용 방법을 설명했습니다.

제한된 하드웨어에서 Claude Opus 4를 활용한 AI 오케스트레이션
2014년 Mac Mini에서 Claude API를 활용하여 복잡한 오케스트레이션 작업을 처리하는 추론 엔진으로 Claude Opus 4를 탐구합니다.

복사-붙여넣기에서 작업 공간 통합까지: AI 코딩 진화에 대한 개발자의 경험
한 개발자가 환각 라이브러리와 컨텍스트 관리 문제로 가득했던 초기 ChatGPT 코딩 시도에서, 파일을 직접 읽어 수동 컨텍스트 재구축이 필요 없는 Claude Code의 작업 공간 통합으로의 전환을 설명합니다.