自己蒸留でLLMコード生成性能向上：Qwen3-30Bで42%→55%

シンプルな自己蒸留の効果

シンプルな自己蒸留（SSD）は、大規模言語モデルから特定の温度設定と切り捨て設定で解決策をサンプリングし、それらのサンプルを標準的な教師ありファインチューニングでモデルに学習させるポストトレーニング手法です。重要な洞察は、検証器、教師モデル、強化学習を必要とせずに機能することです。

性能向上

Qwen3-30B-Instructでは、SSDによりLiveCodeBench v6におけるpass@1性能が42.4%から55.3%に向上しました。改善は難しい問題に集中しており、この手法はQwenとLlamaモデルの4B、8B、30Bスケール、命令型と思考型の両方のバリエーションで汎用的に適用されました。

なぜ機能するのか

研究者らは、この向上をLLMデコーディングにおける精度と探索の矛盾に起因すると分析しました。SSDは文脈依存の方法でトークン分布を再形成し、精度が重要な場合の注意散漫な「テール」を抑制しながら、探索が重要な場合の有用な多様性を保持します。これにより、正確なコードを生成することと異なる解決アプローチを探索することの根本的な緊張関係に対処します。