Qwen 2.5 7B 미세 조정으로 HumanEval 80% 달성, 소형 모델 성능 개선

r/LocalLLaMA의 한 개발자가 자기 지도 학습 루프를 구현했습니다. 작은 언어 모델이 자체 코딩 문제를 생성하고, 해결을 시도한 후, 인터프리터가 정답을 확인한 쌍으로 파인튜닝을 수행합니다. DeepSeek-R1 논문의 핵심 통찰(모델이 검증 가능한 보상을 통해 개선될 수 있다)을 인간 레이블 데이터 없이 적용한 것입니다.

방법

기본 모델(Qwen 2.5 7B로 시작)이 코딩 문제와 몇 가지 작은 테스트를 생성하도록 프롬프트를 주었습니다. 그런 다음 동일한 문제를 여러 번 해결했습니다. Python 인터프리터가 유일한 판사 역할을 했으며, (실패한 시도, 성공한 시도) 쌍이 저장되었습니다. 이 자체 추출된 수정 사항으로 파인튜닝을 수행했습니다. 훈련에 인간이 작성한 코드는 사용되지 않았습니다.

결과

Qwen 2.5 7B base: 채점 버그(함수 출력이 잘림)를 수정한 후 HumanEval 25 → 112 (+87 문제).
Qwen 2.5 14B: 100쌍을 채굴하여 H100에서 95분($3.50 크레딧) 훈련. 같은 회사의 RLHF 버전과 4점 차이로 점수 기록.
Llama 3.2 3B: 32쌍 → HumanEval 39 → 43. 아키텍처 간 전이 가능 확인.
Qwen 2.5 Coder 7B: 이미 코드에 특화되었음에도 개선: HumanEval 83 → 87, MBPP 122 → 124.
Qwen 3 4B: HumanEval 79 → 106 (+27), MBPP 135 → 148.

대조 실험

개선이 일반적인 훈련에서 비롯된 것이 아님을 확인하기 위해, 작성자는 테스트를 통과하지 못하는 무작위 쓰레기 코드로 가짜 쌍을 만들었습니다. 이 데이터로 훈련하면 향상이 전혀 없었습니다(25/164, 기본과 동일). 개선은 자체 생성된 실수와 수정을 학습한 결과입니다.