自己ミスによる自己教師ありファインチューニングで小規模モデルがHumanEval 80%達成

✍️ OpenClawRadar📅 公開日: May 15, 2026🔗 Source
自己ミスによる自己教師ありファインチューニングで小規模モデルがHumanEval 80%達成
Ad

r/LocalLLaMaのある開発者が、小さな言語モデルに自身でコーディング問題を生成させ、解答を試み、インタプリタが正解を確認できたペアでファインチューニングする自己教師あり学習ループを実装しました。DeepSeek-R1論文の重要な洞察——検証可能な報酬を通じてモデルが改善できること——を、人間がラベル付けしたデータなしで応用したものです。

方法

ベースモデル(最初はQwen 2.5 7B)に、コーディング問題と少数の小さなテストを考案するようプロンプトを与えました。その後、同じ問題を複数回解かせます。Pythonインタプリタが唯一の審判となり、失敗した試みと成功した試みのペアが保存されました。これらの自己発掘した修正データでファインチューニングを行いました。学習には人間が書いたコードは一切使用していません。

結果

  • Qwen 2.5 7Bベース: 採点プログラムのバグ(関数出力を途中で切っていた)を修正した後、HumanEvalで25→112(+87問題)に向上。
  • Qwen 2.5 14B: 100ペアを発掘し、H100で95分(クレジット$3.50)で学習。同じ企業のRLHF版と4ポイント差に迫るスコアを達成。
  • Llama 3.2 3B: 32ペアで39→43(HumanEval)。アーキテクチャ間での転移を確認。
  • Qwen 2.5 Coder 7B: すでにコード特化型だが、さらに改善:HumanEval 83→87、MBPP 122→124。
  • Qwen 3 4B: HumanEval 79→106(+27)、MBPP 135→148。

対照実験

改善が汎用的な学習によるものではないことを確認するため、作者はどのテストも通過しないランダムなガベージコードで偽のペアを作成しました。それで学習した場合、改善はゼロ(25/164、ベースと同じ)でした。改善は、自己生成した誤りと修正からの学習に特化したものです。

実用的な詳細

最初の試行は、採点プログラムが早期に停止しモデルの出力が半分に切られていたため失敗しました。採点プログラムの修正が重要でした。全体のセットアップは24GBのMacBookとRunPodアカウントで実行されました。コードと学習スクリプトはおそらくRedditの投稿で共有されています。

対象読者

人間による注釈なしでコード推論をブートストラップしたい、小規模言語モデルを扱う開発者や研究者向け。

📖 出典全文: r/LocalLLaMA

Ad

👀 See Also

ボーリウムAIプロテオミクスコンペティション2026 - 13,000ドルの賞金と計算リソース支援
News

ボーリウムAIプロテオミクスコンペティション2026 - 13,000ドルの賞金と計算リソース支援

Bohriumは2026年に開催予定のAIプロテオミクスコンペティションを実施し、13,000ドルの賞金総額、インターンシップの機会、および計算リソースのサポートを提供します。このコンペティションはHacker Newsで話題となり、17ポイントと5件のコメントが寄せられました。

OpenClawRadar
Claude Code v2.1.85 リリース: MCPの改善、フックフィルター、バグ修正
News

Claude Code v2.1.85 リリース: MCPの改善、フックフィルター、バグ修正

Claude Code v2.1.85は、MCPヘッダーヘルパーの環境変数追加、フックのプロセス生成を削減する条件付きifフィールド、/compactの失敗、プラグインの有効化/無効化の問題、Ghostty、Kitty、WezTermのターミナルキーボード問題の修正を追加しました。

OpenClawRadar
オープンソース対フロンティアモデル: シングルファイルキャンバスカーレーンベンチマーク
News

オープンソース対フロンティアモデル: シングルファイルキャンバスカーレーンベンチマーク

ある開発者が、GPT-5.5、Claude Opus 4.7、Qwen 3.6 Plusなど12のモデルを、単一ファイルのHTMLキャンバスを使った車の運転アニメーションタスクでテストし、結果を公開比較しました。

OpenClawRadar
🦀
News

ゲームボーイカラーで動作するTransformer言語モデル

Andrej Karpathy氏のTinyStories-260Kモデルが、通常のゲームボーイカラー上でカスタムROMを介して動作し、INT8固定小数点演算とバンク切り替えカートリッジメモリを重みとKVキャッシュに使用しています。

OpenClawRadar