Qwen3-0.6B 関数呼び出し 79.5% 精度 120B モデル超え方法

概要

Distil Labsは、構造化された関数呼び出しタスクにおいて、小規模な0.6BパラメータのQwen3モデルをファインチューニングし、120Bパラメータの教師モデルを上回る完全なパイプラインをリリースしました。このパイプラインは、本番環境のトレースを抽出し、合成トレーニングデータを生成し、教師モデルよりも200倍小さい専門モデルをトレーニングします。

パフォーマンス結果

教師モデル（GPT-OSS-120B）： 50.0%のツール呼び出し等価性
ベースQwen3-0.6B（ファインチューニングなし）： 10.3%のツール呼び出し等価性
ファインチューニング済みQwen3-0.6B： 79.5%のツール呼び出し等価性

タスクはIoTスマートホームの関数呼び出しです：「キッチンの照明をつけて」や「朝7時にコーヒーを作って」などの自然言語コマンドを、適切なパラメータで正しい関数にルーティングします。スコアリングはファジーな評価ではなく、完全な構造化一致に基づいています。

小規模モデルが勝つ理由

120Bの教師モデルは汎用モデルであり、これらの特定の関数スキーマやユーザーの表現パターンを一度も見たことがありません。そのため、冗長なやや形式外れの応答を生成することがよくあります。0.6Bの学生モデルは、このタスクに特化してトレーニングされた専門家であるため、正確な出力形式を一貫して達成します。

パイプラインアーキテクチャ

3段階のパイプライン：

データ抽出： dltがデータベース、API、クラウドストレージ、またはログアグリゲーターから本番環境のトレースを抽出し、Hugging FaceにクリーンなParquetデータセットとして書き込みます
自動キュレーション： LLMジャッジがトレースをスコアリングしフィルタリングして、高品質のシード例を選択します（手動アノテーションは不要）
合成データ生成とトレーニング： Distil Labsはトレースをドメインコンテキストとして使用し、大規模な教師モデルで約10,000の合成トレーニング例を生成し、検証とフィルタリングを行った後、学生モデルをファインチューニングします

重要な洞察：生のトレースを直接トレーニングする代わりに、それらをコンテキストとして使用することで、合成データジェネレーターが実際のユーザーからの実際の語彙、関数スキーマ、表現パターンに一致する例を生成します。

データセットと実用的な詳細

本番トラフィックの代用としてAmazon MASSIVEデータセット（16,000以上の発話、60の意図）を使用
9つのスマートホーム機能を持つIoTシナリオにフィルタリング
約75のラベル付きシード例で十分（自動キュレーション、手動アノテーションゼロ）
トレーニングは12時間未満で完了
モデル推論：ローカルで50ミリ秒未満 vs. クラウドAPI呼び出しで400〜700ミリ秒
モデルはHugging FaceでsafetensorsおよびGGUF形式で利用可能

本番環境での考慮事項

このモデルは79.5%の完全一致を達成していますが、これは約5回に1回のクエリがフォールバックを必要とする可能性があることを意味します。本番環境での使用では、信頼度の低い予測をより大規模なモデルにルーティングする信頼度しきい値が必要です。

📖 完全なソースを読む： r/LocalLLaMA

微調整されたQwen3-0.6Bモデルは、構造化された関数呼び出しにおいて120Bの教師モデルを凌駕しています。

概要

パフォーマンス結果

小規模モデルが勝つ理由

パイプラインアーキテクチャ

データセットと実用的な詳細

本番環境での考慮事項

👀 See Also

Claude Code SkillがStitchデザインをピクセルずれゼロでNext.jsに変換

AgentHandover：Macのメニューバーアプリで、画面操作を監視してエージェントスキルを作成します

ClawControl iOSクライアントが、OpenClawセルフホストサーバー向けにリリースされました。

LLMマトリックス：コミュニティ投票によるモデル比較、Claude Codeで構築