蒸留モデル vs 最先端LLM：構造化タスク性能比較

ベンチマーク結果：蒸留モデル vs 最先端モデル

研究者は、分類、関数呼び出し、QA、オープンブックQAタスクをカバーする9つのデータセットで、小型蒸留モデルと最先端LLMの包括的比較を実施。すべての蒸留モデルはQwen3ファミリー（0.6Bから8B）で、わずか50例のデータを使用し、最先端API出力なしのオープンウェイト教師モデルで学習。

蒸留モデルは9タスク中6タスクで最良の中堅最先端モデル（<$1/MTok入力）に匹敵または上回り、7つ目では実質的に同性能
Text2SQL：Qwen3-4B蒸留は98.0% vs Claude Haiku 98.7%、GPT-5 nano 96.0%を$3/Mリクエスト vs $378および$24で達成
スマートホーム（関数呼び出し）：Qwen3-0.6Bは98.7% vs Gemini Flashの92.0%
HotpotQA：蒸留モデルは92.0% vs Haikuの98.0% - 世界知識を用いた自由回答推論は依然として最先端領域
分類タスク（Banking77、E-commerce、TREC）：蒸留モデルは最良の最先端オプションと0-1.5ポイント差

モデルは単一H100上のvLLMで提供され、Text2SQL 4Bモデルの性能は以下：

すべてのモデルで同一テストセット、同一プロンプト、同一評価基準
最先端モデルはデータセットごとに3回実行（平均±標準偏差報告）、蒸留モデルはtemp=0
評価：分類は完全一致、関数呼び出しはtool_call_equivalence（デフォルトパラメータ正規化によるJSON比較）、生成はClaude Sonnet 4.6をLLM-as-a-judgeとして使用
コスト：最先端 = 測定APIトークン使用量 × 公開価格（2026年2月）。蒸留 = H100 $2.40/時間 ÷ 測定持続RPS

すべてのコード、モデル、データ、評価スクリプトはオープンソースでhttps://github.com/distil-labs/inference-efficiency-benchmarks/

チャートとデータセット別詳細を含む完全なブログ記事：https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 完全なソースを読む： r/LocalLLaMA