自己教師ありファインチューニングでHumanEval 80%達成：Qwen 2.5 7Bで実現

r/LocalLLaMaのある開発者が、小さな言語モデルに自身でコーディング問題を生成させ、解答を試み、インタプリタが正解を確認できたペアでファインチューニングする自己教師あり学習ループを実装しました。DeepSeek-R1論文の重要な洞察——検証可能な報酬を通じてモデルが改善できること——を、人間がラベル付けしたデータなしで応用したものです。

方法

ベースモデル（最初はQwen 2.5 7B）に、コーディング問題と少数の小さなテストを考案するようプロンプトを与えました。その後、同じ問題を複数回解かせます。Pythonインタプリタが唯一の審判となり、失敗した試みと成功した試みのペアが保存されました。これらの自己発掘した修正データでファインチューニングを行いました。学習には人間が書いたコードは一切使用していません。

結果

Qwen 2.5 7Bベース: 採点プログラムのバグ（関数出力を途中で切っていた）を修正した後、HumanEvalで25→112（+87問題）に向上。
Qwen 2.5 14B: 100ペアを発掘し、H100で95分（クレジット$3.50）で学習。同じ企業のRLHF版と4ポイント差に迫るスコアを達成。
Llama 3.2 3B: 32ペアで39→43（HumanEval）。アーキテクチャ間での転移を確認。
Qwen 2.5 Coder 7B: すでにコード特化型だが、さらに改善：HumanEval 83→87、MBPP 122→124。
Qwen 3 4B: HumanEval 79→106（+27）、MBPP 135→148。

対照実験

改善が汎用的な学習によるものではないことを確認するため、作者はどのテストも通過しないランダムなガベージコードで偽のペアを作成しました。それで学習した場合、改善はゼロ（25/164、ベースと同じ）でした。改善は、自己生成した誤りと修正からの学習に特化したものです。

実用的な詳細

最初の試行は、採点プログラムが早期に停止しモデルの出力が半分に切られていたため失敗しました。採点プログラムの修正が重要でした。全体のセットアップは24GBのMacBookとRunPodアカウントで実行されました。コードと学習スクリプトはおそらくRedditの投稿で共有されています。

対象読者

人間による注釈なしでコード推論をブートストラップしたい、小規模言語モデルを扱う開発者や研究者向け。

📖 出典全文: r/LocalLLaMA

自己ミスによる自己教師ありファインチューニングで小規模モデルがHumanEval 80%達成

方法

結果

対照実験

実用的な詳細

対象読者

👀 See Also

ChatGPT Workspace Agents 無料プレビュー本日終了 — OpenClaw と Hermes との比較

コードが安くなると、理解が高くつく

アンソピック社、AI競合他社による大規模なクロード蒸留の証拠を報告

EFF: トランプ政権、自律型兵器業務を拒否したAnthropicに報復