3ドルとゼロの人間ラベラーでClaude Haikuの96%まで微調整したQwen2.5-7B

ある開発者がQwen2.5-7Bを微調整し、ドメイン固有の意思決定タスクでClaude Haikuの複合性能の96%を達成した。API呼び出し費用はわずか約3ドルで、人間のラベラーはゼロ。この手法はDV-DPO(Decision-Validated Direct Preference Optimization)と呼ばれ、複数の声を持つ敵対的協議会を実行することで自律的に学習信号を生成する。
DV-DPOの仕組み
パイプラインは各決定質問に対して3つの声の協議会を実行し、統合結果を生成する。その後、負けた2つの声が統合結果を反駁する。もしこの敵対的プレッシャーの下で統合結果が修正された場合、DPOペアが形成される:修正後のバージョンが選択応答、修正前のバージョンが拒否応答となる。統合結果が維持された場合はペアは作成されない。これにより、形式の好みやサンプリングのばらつきではなく、真の推論エラーのみが学習信号を生成する。
結果
- 1,040個のトレーニングペアを生成(Haikuレートで約3ドル)
- Claude Haikuとの直接対決:形式100%、コミット100%、コンテキスト89%、複合96%
- レイテンシ:T4 GPU(4ビット量子化)で11秒、Haikuは3秒
- 敵対的失敗率:96の標的問題に対して2%
自律的改善ループ
システムは現在、自動サイクルを実行中:失敗検出器 → 自動レッドチーム → DPOペア → 再トレーニング → 再デプロイ → 評価。バージョン5のペアが蓄積中。微調整済みモデルはGGUFファイルとして提供され、Ollamaで利用可能。
こんな人におすすめ
ドメイン固有の推論エージェントを構築し、従量課金APIから高価な人間によるアノテーションなしでローカルの微調整モデルに移行したい開発者向け。
📖 出典全文: r/LocalLLaMA
👀 See Also

DeepSeek V4 Flash コスト分析:キャッシュヒット率と価格比率の解説
DeepSeek V4 Flashは、97%のキャッシュヒット率と0.02のキャッシュ読み書き価格比により、エージェントタスク1件あたりのコストがOpus 4.7の0.0066倍です。

🚀 OpenClaw 2026.2.6 リリース – 新モデル、セキュリティ強化、そしてメジャーアップデート!
OpenClaw 2026.2.6は、新しいAIモデルと強化されたセキュリティ対策を含む画期的な機能をリリースしました。自動化の未来を形作る主要なアップデートについて詳しくご覧ください。

AIデータセンター資金調達構造における訴訟リスク
AIデータセンターの構築には、2030年までに5.2兆ドルのインフラ投資が必要であり、企業はSPVやGPU担保ファシリティなどの複雑な資金調達構造を利用しており、これが9つの訴訟リスクカテゴリーを生み出しています。

ローカル vs クラウドモデル:Qwen-3.6-27B、Gemma-4-31B、Claude Haiku、Codex-Spark のハードコード生成比較
あるユーザーが、Qwen-3.6-27B(q4_k_m)をローカルのRTX 5080で実行し、APIベースのGemma-4-31B、Claude Haiku 4.5、Codex-Sparkと複雑なコードタスクで比較しました。完全なコードを生成したのはCodex-Sparkだけでした(ただしインポートエラーあり)。他のモデルは部分的に失敗しました。コスト:Gemmaは803k入力トークンで0.112ドル使用しました。