微調整されたQwen3 Smallモデルは、特定のタスクにおいてフロンティアLLMを凌駕し、低コストで優れた性能を発揮します

小型の蒸留Qwen3モデルと最先端APIモデルを体系的に比較した結果、特定の構造化タスクにおいて、ファインチューニングされた小型言語モデルが、より大きく高価なモデルを上回る可能性が示されました。
ベンチマーク結果
この研究では、Qwen3モデル(0.6Bから8Bパラメータ)を、GPT-5 nano/mini/5.2、Gemini 2.5 Flash Lite/Flash、Claude Haiku 4.5/Sonnet 4.6/Opus 4.6、Grok 4.1 Fast/Grok 4を含む最先端APIと、9つのデータセットで比較しました。すべての蒸留モデルは、オープンウェイトの教師モデルのみを使用し、わずか50例のデータで学習されました。推論は、単一のH100上でvLLMを使用して実行されました。
主な性能調査結果
- スマートホーム関数呼び出し: Qwen3-0.6Bは98.7%の精度を達成(Gemini Flashは92.0%)
- Text2SQL: 蒸留Qwen3-4Bは98.0%を達成(Claude Haikuは98.7%、GPT-5 nanoは96.0%)
- コスト比較: Text2SQLの100万リクエストあたりのコスト:Qwen3-4Bは約3ドル(Claude Haikuは378ドル、GPT-5 nanoは24ドル)
- 分類タスク: 蒸留モデルは、Banking77、E-commerce、TRECデータセットにおいて、最良の最先端オプションと0〜1.5パーセントポイントの差で性能を発揮
- 最先端モデルの優位性: HotpotQA(自由形式の推論+世界知識) — 92.0%(Haikuは98.0%)
性能指標
H100上のQwen3-4BによるText2SQLの場合:
- 222 RPSを持続
- p50:390ms | p95:640ms | p99:870ms
- 7.6 GiB VRAM(BF16、量子化なし)
- FP8では、スループットが+15%、VRAMが-44%向上し、簡単な実験では精度の低下は測定されず
方法論
- すべてのモデルに対して、同じテストセット、プロンプト、評価基準を使用
- 最先端モデルは各データセットで3回実行(平均±標準偏差を報告)、蒸留モデルは温度=0で実行
- 評価:分類は完全一致、関数呼び出しはtool_call_equivalence(デフォルトパラメータ正規化を用いたJSON比較)、生成タスクはClaude Sonnet 4.6をLLM-judgeとして使用
- コスト計算:最先端モデル = 測定されたトークン使用量 × 公開価格(2026年2月);蒸留モデル = H100の2.40ドル/時間 ÷ 持続RPS
実用的な推奨事項
- 蒸留モデルを使用する場合: 構造化タスク、明確に定義されたスキーマ、高ボリューム、またはデータ主権の要件があるとき
- 最先端APIを使用する場合: 広範な世界知識、自由形式の生成が必要な場合、またはボリュームが低くコストが問題にならないとき
- ハイブリッドアプローチ: タスクの要件に基づいて、両者をルーティングする
入手可能性
すべてのコード、モデル、データ、評価スクリプトは、GitHubでオープンソースとして公開されています: https://github.com/distil-labs/inference-efficiency-benchmarks/
チャート付きの完全な分析は、ブログでご覧いただけます: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

AppleのlibibverbsがGPUDirect RDMAシンボルを隠蔽;macOSでゼロコピーMetalバッファRDMAが動作
開発者が、AppleのRDMAサブシステムがMetal GPUバッファをゼロコピーネットワーク転送に受け入れることを発見し、隠されたibv_reg_dmabuf_mrシンボルがmacOSでカーネル修正なしにGPUDirect RDMAが可能であることを示唆していることを発見した。

簡単なデプロイ:Open Claw向け新ワンクリックAWSセットアップをリリース
Open Clawの愛好家たちが今、祝う理由があります。新たなワンクリックAWSデプロイツールがOpen Clawのセットアッププロセスを簡素化し、開発者や趣味で使う人々にとってよりアクセスしやすくなりました。

CBPのクリアビューAI契約:戦術的標的設定のための顔認識
米国税関・国境警備局は、数十億のインターネット収集画像に対する顔認識技術を用いた戦術的ターゲティングのために、Clearview AIと契約を結びました。

AIデザインパターン向けShow HN投稿の採点
開発者が500のShow HNランディングページを分析し、Interフォント、カラーの左ボーダー、グラスモーフィズムなど、AI生成による一般的なデザインパターンを検出しました。スコアリングシステムにより、5つ以上のパターンを持つ「heavy slop」サイトが21%と特定されました。