자기주도적 오류 기반 미세 조정, 소형 모델의 HumanEval 성능 80% 달성

r/LocalLLaMA의 한 개발자가 자기 지도 학습 루프를 구현했습니다. 작은 언어 모델이 자체 코딩 문제를 생성하고, 해결을 시도한 후, 인터프리터가 정답을 확인한 쌍으로 파인튜닝을 수행합니다. DeepSeek-R1 논문의 핵심 통찰(모델이 검증 가능한 보상을 통해 개선될 수 있다)을 인간 레이블 데이터 없이 적용한 것입니다.
방법
기본 모델(Qwen 2.5 7B로 시작)이 코딩 문제와 몇 가지 작은 테스트를 생성하도록 프롬프트를 주었습니다. 그런 다음 동일한 문제를 여러 번 해결했습니다. Python 인터프리터가 유일한 판사 역할을 했으며, (실패한 시도, 성공한 시도) 쌍이 저장되었습니다. 이 자체 추출된 수정 사항으로 파인튜닝을 수행했습니다. 훈련에 인간이 작성한 코드는 사용되지 않았습니다.
결과
- Qwen 2.5 7B base: 채점 버그(함수 출력이 잘림)를 수정한 후 HumanEval 25 → 112 (+87 문제).
- Qwen 2.5 14B: 100쌍을 채굴하여 H100에서 95분($3.50 크레딧) 훈련. 같은 회사의 RLHF 버전과 4점 차이로 점수 기록.
- Llama 3.2 3B: 32쌍 → HumanEval 39 → 43. 아키텍처 간 전이 가능 확인.
- Qwen 2.5 Coder 7B: 이미 코드에 특화되었음에도 개선: HumanEval 83 → 87, MBPP 122 → 124.
- Qwen 3 4B: HumanEval 79 → 106 (+27), MBPP 135 → 148.
대조 실험
개선이 일반적인 훈련에서 비롯된 것이 아님을 확인하기 위해, 작성자는 테스트를 통과하지 못하는 무작위 쓰레기 코드로 가짜 쌍을 만들었습니다. 이 데이터로 훈련하면 향상이 전혀 없었습니다(25/164, 기본과 동일). 개선은 자체 생성된 실수와 수정을 학습한 결과입니다.
실무 세부 사항
초기 시도는 채점기가 일찍 중단되어 모델 출력이 절반으로 잘리면서 실패했습니다. 채점기 수정이 중요했습니다. 전체 설정은 24GB MacBook과 RunPod 계정에서 실행되었습니다. 코드와 훈련 스크립트는 Reddit 게시물에 공유된 것으로 보입니다.
대상 독자
인간 주석 없이 코드 추론을 부트스트랩하려는 소형 언어 모델을 다루는 개발자와 연구자.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Opus 4.7 프롬프트가 스스로 주입되고 시스템 프롬프트를 유출합니다
Claude Opus 4.7 사용자들이 모델이 사용자 트리거 없이 가짜 시스템 프롬프트를 주입하고 실제 시스템 프롬프트의 일부를 유출한다고 보고합니다.

클로드 AI, '진정한 사고'에 81분 투자 - 주요 업데이트 시 사용자 신고 급증
한 사용자가 Claude AI가 간단한 작업에 1시간 21분을 소비했다고 보고하며, 주요 업데이트 직후 성능이 일시적으로 향상된다고 추측합니다. 예를 들어, 한 연구 요청에서 한 세션에 5,113개의 출처를 스캔했지만 이후 비슷한 질문에는 100~200개의 출처만 스캔했습니다.

에이전트 코딩은 함정: 인지 부채와 위축
Lars Faye는 Claude Code와 같은 에이전틱 코딩 도구가 인지 위축, 벤더 종속, 복잡성 증가를 초래하며, 코드 작성에서 생성된 코드 검토로 부담을 전가하여 개발자 기술을 저하시킨다고 주장합니다.

클로드 코워크는 슬래시 명령어와 스킬을 단일 개념으로 통합합니다.
클로드 코워크는 슬래시 명령어와 스킬을 '스킬'이라는 단일 개념으로 통합하여 / 메뉴에서 별도의 헤더를 제거했습니다. 기존 명령어는 이전과 동일하게 작동합니다.