微調整されたQwen3-0.6Bモデルは、構造化された関数呼び出しにおいて120Bの教師モデルを凌駕しています。

概要
Distil Labsは、構造化された関数呼び出しタスクにおいて、小規模な0.6BパラメータのQwen3モデルをファインチューニングし、120Bパラメータの教師モデルを上回る完全なパイプラインをリリースしました。このパイプラインは、本番環境のトレースを抽出し、合成トレーニングデータを生成し、教師モデルよりも200倍小さい専門モデルをトレーニングします。
パフォーマンス結果
- 教師モデル(GPT-OSS-120B): 50.0%のツール呼び出し等価性
- ベースQwen3-0.6B(ファインチューニングなし): 10.3%のツール呼び出し等価性
- ファインチューニング済みQwen3-0.6B: 79.5%のツール呼び出し等価性
タスクはIoTスマートホームの関数呼び出しです:「キッチンの照明をつけて」や「朝7時にコーヒーを作って」などの自然言語コマンドを、適切なパラメータで正しい関数にルーティングします。スコアリングはファジーな評価ではなく、完全な構造化一致に基づいています。
小規模モデルが勝つ理由
120Bの教師モデルは汎用モデルであり、これらの特定の関数スキーマやユーザーの表現パターンを一度も見たことがありません。そのため、冗長なやや形式外れの応答を生成することがよくあります。0.6Bの学生モデルは、このタスクに特化してトレーニングされた専門家であるため、正確な出力形式を一貫して達成します。
パイプラインアーキテクチャ
3段階のパイプライン:
- データ抽出: dltがデータベース、API、クラウドストレージ、またはログアグリゲーターから本番環境のトレースを抽出し、Hugging FaceにクリーンなParquetデータセットとして書き込みます
- 自動キュレーション: LLMジャッジがトレースをスコアリングしフィルタリングして、高品質のシード例を選択します(手動アノテーションは不要)
- 合成データ生成とトレーニング: Distil Labsはトレースをドメインコンテキストとして使用し、大規模な教師モデルで約10,000の合成トレーニング例を生成し、検証とフィルタリングを行った後、学生モデルをファインチューニングします
重要な洞察:生のトレースを直接トレーニングする代わりに、それらをコンテキストとして使用することで、合成データジェネレーターが実際のユーザーからの実際の語彙、関数スキーマ、表現パターンに一致する例を生成します。
データセットと実用的な詳細
- 本番トラフィックの代用としてAmazon MASSIVEデータセット(16,000以上の発話、60の意図)を使用
- 9つのスマートホーム機能を持つIoTシナリオにフィルタリング
- 約75のラベル付きシード例で十分(自動キュレーション、手動アノテーションゼロ)
- トレーニングは12時間未満で完了
- モデル推論:ローカルで50ミリ秒未満 vs. クラウドAPI呼び出しで400〜700ミリ秒
- モデルはHugging FaceでsafetensorsおよびGGUF形式で利用可能
本番環境での考慮事項
このモデルは79.5%の完全一致を達成していますが、これは約5回に1回のクエリがフォールバックを必要とする可能性があることを意味します。本番環境での使用では、信頼度の低い予測をより大規模なモデルにルーティングする信頼度しきい値が必要です。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

ソクラテス式プロンプトジェネレーター:Claude内部にReactアーティファクトとして構築
開発者が、Claude内で直接動作するReactアーティファクトとしてソクラテス式プロンプトジェネレーターを構築しました。入力の複雑さを自動検出し、失敗モード分析を備えた3段階のプロンプト生成を特徴としています。

定足数:AIコードガバナンスツールが独立したモデルレビューを実施
quorumは、AI支援開発におけるガバナンス層であり、コードがコミットされる前に別のモデルによって独立してレビューされることを要求するコンセンサスプロトコルを強制します。進捗をブロックする3つの構造的ゲート(監査、振り返り、品質ゲート)を含みます。

エージェントイメージスキル:Claudeコードエージェント向けシンプルな画像ホスティング
開発者が、Claude Codeエージェントが生成する画像(チャート、スクリーンショット、モックアップなど)を保存するためのシンプルな画像ホスティングサービスをhttps://images.labnocturne.comに構築しました。このサービスは、エージェントが画像を生成しても保存場所がないという問題を解決し、Cloudinaryの無料枠の制限、Imgur APIの信頼性の問題、基本的なURLホスティングにおけるS3の複雑さを回避します。

boxBot: ClaudeとHailo AI搭載のオープンソーススマートスピーカー
FunScore645という開発者が、Claudeを使ったエージェント駆動のハードウェア制御、Raspberry Pi、Hailo AIアクセラレータ、カスタムSDKを用いてboxBotというスマートスピーカーを構築し、GitHubでオープンソース化しました。