シンプルな自己蒸留法がLLMのコード生成を改善

✍️ OpenClawRadar📅 公開日: April 14, 2026🔗 Source
シンプルな自己蒸留法がLLMのコード生成を改善
Ad

シンプルな自己蒸留の効果

シンプルな自己蒸留(SSD)は、大規模言語モデルから特定の温度設定と切り捨て設定で解決策をサンプリングし、それらのサンプルを標準的な教師ありファインチューニングでモデルに学習させるポストトレーニング手法です。重要な洞察は、検証器、教師モデル、強化学習を必要とせずに機能することです。

性能向上

Qwen3-30B-Instructでは、SSDによりLiveCodeBench v6におけるpass@1性能が42.4%から55.3%に向上しました。改善は難しい問題に集中しており、この手法はQwenとLlamaモデルの4B、8B、30Bスケール、命令型と思考型の両方のバリエーションで汎用的に適用されました。

なぜ機能するのか

研究者らは、この向上をLLMデコーディングにおける精度と探索の矛盾に起因すると分析しました。SSDは文脈依存の方法でトークン分布を再形成し、精度が重要な場合の注意散漫な「テール」を抑制しながら、探索が重要な場合の有用な多様性を保持します。これにより、正確なコードを生成することと異なる解決アプローチを探索することの根本的な緊張関係に対処します。

実用的な意義

SSDは、検証器や強化学習を必要とする手法と比較して実装が比較的簡単な、LLMコード生成を改善する補完的なポストトレーニングの方向性を提供します。このアプローチは既存のファインチューニングインフラで動作し、追加のモデルや複雑な報酬システムを必要としません。

📖 Read the full source: HN AI Agents

Ad

👀 See Also

Anthropicのポリシー更新により、Claude Pro/Maxユーザーはサードパーティ製ツールの使用が禁止されました。
News

Anthropicのポリシー更新により、Claude Pro/Maxユーザーはサードパーティ製ツールの使用が禁止されました。

Anthropicは2026年2月にポリシーを更新し、Claude ProまたはMaxプランでのスクリプト、ラッパー、サードパーティーツールの使用を明確に禁止しました。これに違反したユーザーは永久追放処分となります。2026年3月の執行強化では、高額なMaxプラン契約者で集中的なコーディングセッションを行うユーザーが対象となっています。

OpenClawRadar
DeepSeekがアリババを拒否:500億ドルの資金調達ラウンドでビッグテック統合より独立を優先
News

DeepSeekがアリババを拒否:500億ドルの資金調達ラウンドでビッグテック統合より独立を優先

ディープシークの500億ドル資金調達ラウンドがアリババとの統合要求により破談。創業者の梁文鋒氏は制限条項を拒否し、テンセントや国有ファンドからのオファーを検討中。

OpenClawRadar
FFmpeg開発者、MagicYUV問題でOxideAVのAIライセンス不正利用を非難
News

FFmpeg開発者、MagicYUV問題でOxideAVのAIライセンス不正利用を非難

FFmpeg開発者がOxideAVのmagicyuvリポジトリに問題を提起し、プロジェクトのライセンスに異議を唱え、GPLコードのAI支援によるライセンスロンダリングを主張しました。

OpenClawRadar
15のマルチモーダルAIモデルの視覚的推論ベンチマーク結果
News

15のマルチモーダルAIモデルの視覚的推論ベンチマーク結果

AIMultipleは、2つのトラック(チャート理解と視覚的論理)にわたる200の視覚的推論問題で、主要な15のマルチモーダルAIモデルをベンチマークしました。Gemini-3.1-pro-previewとGemini-3-pro-previewが総合結果をリードし、続いてGPT-5.2、Kimi-K2.5、GPT-5.2-proが続きました。

OpenClawRadar