RLVR로 소형 모델 성능 향상: 1.7B 파라미터 실험 분석

최근 실험에서는 소규모 언어 모델(1.7B 파라미터)에 지도 파인튜닝(SFT) 위에 강화 학습 단계(RLVR)를 추가하는 것이 측정 가능한 이점을 제공하는지 테스트했습니다. 연구팀은 이 접근법이 언제 도움이 되고 언제 그렇지 않은지 정확히 확인하기 위해 12개 데이터셋에 걸쳐 통제된 실험을 진행했습니다.

주요 발견 사항

결과는 작업 유형별로 명확히 구분됩니다:

텍스트 생성 작업 (질의응답, 문서화, 개인정보 제거): 평균 +2.0%포인트 향상. 이 범주의 모든 데이터셋에서 개선이 나타났습니다.
구조화된 작업 (분류, 함수 호출): 평균 -0.7%포인트 감소. 이 범주의 두 데이터셋은 실제로 성능이 저하되었습니다.

이 패턴이 나타나는 이유

연구자들은 파인튜닝된 모델이 이미 대부분의 구조화된 출력을 정확하게 생성할 경우, GRPO(그룹 상대 정책 최적화)가 거의 제로에 가까운 그래디언트를 생성한다고 설명합니다. 기본적으로 강화 학습 단계가 활용할 학습 신호가 남아있지 않게 됩니다.

생성 작업의 경우 출력 공간이 충분히 커서 RL이 SFT가 놓친 개선점을 계속 찾아낼 수 있습니다 — 특히 정확한 문자열 매칭보다 의미적 정확성을 보상할 때 더욱 그렇습니다.

실용적 결정 규칙

이 연구는 개발자들을 위한 간단한 지침을 제공합니다:

분류 또는 엄격한 함수 호출 → SFT만 사용
질의응답, 문서화, 추출 작업 → SFT 위에 RLVR 추가

방법론, 테스트된 모든 12개 데이터셋, 원시 수치는 전체 분석에서 확인할 수 있습니다.

📖 전체 출처 읽기: r/LocalLLaMA

RLVR가 소형 미세 조정 모델에 도움이 될 때: 12개 데이터셋 분석

주요 발견 사항

이 패턴이 나타나는 이유

실용적 결정 규칙

👀 See Also

Anthropic의 Claude, 설문 대안으로 8만 건의 구조화된 인터뷰 진행

db-wal-recovery 작업의 TB2 벤치마킹 문제 분석

Claude Code v2.1.195: 후크 매처 수정, 마우스 비활성화 환경 변수, 음성 받아쓰기 수정

최근 업데이트 이후 OpenClaw 에이전트 시스템 오작동