微調整されたQwen3-0.6Bモデルは、構造化された関数呼び出しにおいて120Bの教師モデルを凌駕しています。

✍️ OpenClawRadar📅 公開日: March 9, 2026🔗 Source
微調整されたQwen3-0.6Bモデルは、構造化された関数呼び出しにおいて120Bの教師モデルを凌駕しています。
Ad

概要

Distil Labsは、構造化された関数呼び出しタスクにおいて、小規模な0.6BパラメータのQwen3モデルをファインチューニングし、120Bパラメータの教師モデルを上回る完全なパイプラインをリリースしました。このパイプラインは、本番環境のトレースを抽出し、合成トレーニングデータを生成し、教師モデルよりも200倍小さい専門モデルをトレーニングします。

パフォーマンス結果

  • 教師モデル(GPT-OSS-120B): 50.0%のツール呼び出し等価性
  • ベースQwen3-0.6B(ファインチューニングなし): 10.3%のツール呼び出し等価性
  • ファインチューニング済みQwen3-0.6B: 79.5%のツール呼び出し等価性

タスクはIoTスマートホームの関数呼び出しです:「キッチンの照明をつけて」や「朝7時にコーヒーを作って」などの自然言語コマンドを、適切なパラメータで正しい関数にルーティングします。スコアリングはファジーな評価ではなく、完全な構造化一致に基づいています。

小規模モデルが勝つ理由

120Bの教師モデルは汎用モデルであり、これらの特定の関数スキーマやユーザーの表現パターンを一度も見たことがありません。そのため、冗長なやや形式外れの応答を生成することがよくあります。0.6Bの学生モデルは、このタスクに特化してトレーニングされた専門家であるため、正確な出力形式を一貫して達成します。

Ad

パイプラインアーキテクチャ

3段階のパイプライン:

  1. データ抽出: dltがデータベース、API、クラウドストレージ、またはログアグリゲーターから本番環境のトレースを抽出し、Hugging FaceにクリーンなParquetデータセットとして書き込みます
  2. 自動キュレーション: LLMジャッジがトレースをスコアリングしフィルタリングして、高品質のシード例を選択します(手動アノテーションは不要)
  3. 合成データ生成とトレーニング: Distil Labsはトレースをドメインコンテキストとして使用し、大規模な教師モデルで約10,000の合成トレーニング例を生成し、検証とフィルタリングを行った後、学生モデルをファインチューニングします

重要な洞察:生のトレースを直接トレーニングする代わりに、それらをコンテキストとして使用することで、合成データジェネレーターが実際のユーザーからの実際の語彙、関数スキーマ、表現パターンに一致する例を生成します。

データセットと実用的な詳細

  • 本番トラフィックの代用としてAmazon MASSIVEデータセット(16,000以上の発話、60の意図)を使用
  • 9つのスマートホーム機能を持つIoTシナリオにフィルタリング
  • 約75のラベル付きシード例で十分(自動キュレーション、手動アノテーションゼロ)
  • トレーニングは12時間未満で完了
  • モデル推論:ローカルで50ミリ秒未満 vs. クラウドAPI呼び出しで400〜700ミリ秒
  • モデルはHugging FaceでsafetensorsおよびGGUF形式で利用可能

本番環境での考慮事項

このモデルは79.5%の完全一致を達成していますが、これは約5回に1回のクエリがフォールバックを必要とする可能性があることを意味します。本番環境での使用では、信頼度の低い予測をより大規模なモデルにルーティングする信頼度しきい値が必要です。

📖 完全なソースを読む: r/LocalLLaMA

Ad

👀 See Also

ソクラテス式プロンプトジェネレーター:Claude内部にReactアーティファクトとして構築
Tools

ソクラテス式プロンプトジェネレーター:Claude内部にReactアーティファクトとして構築

開発者が、Claude内で直接動作するReactアーティファクトとしてソクラテス式プロンプトジェネレーターを構築しました。入力の複雑さを自動検出し、失敗モード分析を備えた3段階のプロンプト生成を特徴としています。

OpenClawRadar
定足数:AIコードガバナンスツールが独立したモデルレビューを実施
Tools

定足数:AIコードガバナンスツールが独立したモデルレビューを実施

quorumは、AI支援開発におけるガバナンス層であり、コードがコミットされる前に別のモデルによって独立してレビューされることを要求するコンセンサスプロトコルを強制します。進捗をブロックする3つの構造的ゲート(監査、振り返り、品質ゲート)を含みます。

OpenClawRadar
エージェントイメージスキル:Claudeコードエージェント向けシンプルな画像ホスティング
Tools

エージェントイメージスキル:Claudeコードエージェント向けシンプルな画像ホスティング

開発者が、Claude Codeエージェントが生成する画像(チャート、スクリーンショット、モックアップなど)を保存するためのシンプルな画像ホスティングサービスをhttps://images.labnocturne.comに構築しました。このサービスは、エージェントが画像を生成しても保存場所がないという問題を解決し、Cloudinaryの無料枠の制限、Imgur APIの信頼性の問題、基本的なURLホスティングにおけるS3の複雑さを回避します。

OpenClawRadar
boxBot: ClaudeとHailo AI搭載のオープンソーススマートスピーカー
Tools

boxBot: ClaudeとHailo AI搭載のオープンソーススマートスピーカー

FunScore645という開発者が、Claudeを使ったエージェント駆動のハードウェア制御、Raspberry Pi、Hailo AIアクセラレータ、カスタムSDKを用いてboxBotというスマートスピーカーを構築し、GitHubでオープンソース化しました。

OpenClawRadar