Qwen3 Small モデル: 低コストでGPT-5超えの性能を実現

小型の蒸留Qwen3モデルと最先端APIモデルを体系的に比較した結果、特定の構造化タスクにおいて、ファインチューニングされた小型言語モデルが、より大きく高価なモデルを上回る可能性が示されました。

ベンチマーク結果

この研究では、Qwen3モデル（0.6Bから8Bパラメータ）を、GPT-5 nano/mini/5.2、Gemini 2.5 Flash Lite/Flash、Claude Haiku 4.5/Sonnet 4.6/Opus 4.6、Grok 4.1 Fast/Grok 4を含む最先端APIと、9つのデータセットで比較しました。すべての蒸留モデルは、オープンウェイトの教師モデルのみを使用し、わずか50例のデータで学習されました。推論は、単一のH100上でvLLMを使用して実行されました。

主な性能調査結果

スマートホーム関数呼び出し： Qwen3-0.6Bは98.7%の精度を達成（Gemini Flashは92.0%）
Text2SQL： 蒸留Qwen3-4Bは98.0%を達成（Claude Haikuは98.7%、GPT-5 nanoは96.0%）
コスト比較： Text2SQLの100万リクエストあたりのコスト：Qwen3-4Bは約3ドル（Claude Haikuは378ドル、GPT-5 nanoは24ドル）
分類タスク： 蒸留モデルは、Banking77、E-commerce、TRECデータセットにおいて、最良の最先端オプションと0〜1.5パーセントポイントの差で性能を発揮
最先端モデルの優位性： HotpotQA（自由形式の推論＋世界知識） — 92.0%（Haikuは98.0%）

性能指標

H100上のQwen3-4BによるText2SQLの場合：

222 RPSを持続
p50：390ms | p95：640ms | p99：870ms
7.6 GiB VRAM（BF16、量子化なし）
FP8では、スループットが+15%、VRAMが-44%向上し、簡単な実験では精度の低下は測定されず

方法論

すべてのモデルに対して、同じテストセット、プロンプト、評価基準を使用
最先端モデルは各データセットで3回実行（平均±標準偏差を報告）、蒸留モデルは温度=0で実行
評価：分類は完全一致、関数呼び出しはtool_call_equivalence（デフォルトパラメータ正規化を用いたJSON比較）、生成タスクはClaude Sonnet 4.6をLLM-judgeとして使用
コスト計算：最先端モデル = 測定されたトークン使用量 × 公開価格（2026年2月）；蒸留モデル = H100の2.40ドル/時間 ÷ 持続RPS

実用的な推奨事項

蒸留モデルを使用する場合： 構造化タスク、明確に定義されたスキーマ、高ボリューム、またはデータ主権の要件があるとき
最先端APIを使用する場合： 広範な世界知識、自由形式の生成が必要な場合、またはボリュームが低くコストが問題にならないとき
ハイブリッドアプローチ： タスクの要件に基づいて、両者をルーティングする

入手可能性

すべてのコード、モデル、データ、評価スクリプトは、GitHubでオープンソースとして公開されています： https://github.com/distil-labs/inference-efficiency-benchmarks/

チャート付きの完全な分析は、ブログでご覧いただけます： https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 完全なソースを読む： r/LocalLLaMA

微調整されたQwen3 Smallモデルは、特定のタスクにおいてフロンティアLLMを凌駕し、低コストで優れた性能を発揮します

ベンチマーク結果

主な性能調査結果

性能指標

方法論

実用的な推奨事項

入手可能性

👀 See Also

SWE-rebenchリーダーボード更新：2026年2月の結果は接戦を明らかに

Claude Opus 4.6のeffort=lowパラメータは、他のプロバイダーの低推論モードとは異なります。

9つの一般的なAIコーディングエージェントの失敗パターンと実行前検証

Anthropic、SpaceXとの提携によりコロッサス1で220,000基のNVIDIA GPUを用いた300MWのコンピューティングリソースを確保