간단한 자기 증류 방법이 LLM 코드 생성 성능을 향상시킵니다

✍️ OpenClawRadar📅 게시일: April 14, 2026🔗 Source
간단한 자기 증류 방법이 LLM 코드 생성 성능을 향상시킵니다
Ad

단순 자기 증류의 역할

단순 자기 증류(SSD)는 사후 훈련 방법으로, 특정 온도와 자르기 설정을 사용해 대규모 언어 모델에서 해결책을 샘플링한 다음, 표준 지도 미세 조정을 통해 해당 샘플로 모델을 미세 조정합니다. 핵심 통찰은 검증기, 교사 모델 또는 강화 학습 없이도 이 방법이 작동한다는 점입니다.

성능 향상

Qwen3-30B-Instruct에서 SSD는 LiveCodeBench v6의 pass@1 성능을 42.4%에서 55.3%로 향상시켰습니다. 향상은 더 어려운 문제에 집중되었으며, 이 방법은 4B, 8B, 30B 규모의 Qwen 및 Llama 모델(지시 및 사고 변형 포함)에서 일반화되었습니다.

작동 원리

연구자들은 이러한 향상을 LLM 디코딩의 정밀성-탐색 갈등으로 추적했습니다. SSD는 문맥에 따라 토큰 분포를 재구성하여, 정밀성이 중요한 경우 산만한 꼬리를 억제하면서 탐색이 중요한 경우 유용한 다양성을 보존합니다. 이는 정밀한 코드 생성과 다양한 해결책 접근법 탐색 사이의 근본적인 긴장을 해결합니다.

실용적 의미

SSD는 검증기나 강화 학습이 필요한 방법에 비해 구현이 상대적으로 간단한 LLM 코드 생성 향상을 위한 보완적 사후 훈련 방향을 제시합니다. 이 접근법은 기존 미세 조정 인프라와 함께 작동하며 추가 모델이나 복잡한 보상 시스템이 필요하지 않습니다.

📖 Read the full source: HN AI Agents

Ad

👀 See Also