ベンチマークによると、蒸留モデルは構造化タスクにおいて最先端LLMと同等の性能を10分の1のコストで達成しています

✍️ OpenClawRadar📅 公開日: March 7, 2026🔗 Source
ベンチマークによると、蒸留モデルは構造化タスクにおいて最先端LLMと同等の性能を10分の1のコストで達成しています
Ad

ベンチマーク結果:蒸留モデル vs 最先端モデル

研究者は、分類、関数呼び出し、QA、オープンブックQAタスクをカバーする9つのデータセットで、小型蒸留モデルと最先端LLMの包括的比較を実施。すべての蒸留モデルはQwen3ファミリー(0.6Bから8B)で、わずか50例のデータを使用し、最先端API出力なしのオープンウェイト教師モデルで学習。

主要な性能発見

  • 蒸留モデルは9タスク中6タスクで最良の中堅最先端モデル(<$1/MTok入力)に匹敵または上回り、7つ目では実質的に同性能
  • Text2SQL:Qwen3-4B蒸留は98.0% vs Claude Haiku 98.7%、GPT-5 nano 96.0%を$3/Mリクエスト vs $378および$24で達成
  • スマートホーム(関数呼び出し):Qwen3-0.6Bは98.7% vs Gemini Flashの92.0%
  • HotpotQA:蒸留モデルは92.0% vs Haikuの98.0% - 世界知識を用いた自由回答推論は依然として最先端領域
  • 分類タスク(Banking77、E-commerce、TREC):蒸留モデルは最良の最先端オプションと0-1.5ポイント差

推論性能

モデルは単一H100上のvLLMで提供され、Text2SQL 4Bモデルの性能は以下:

  • 222 RPS持続
  • p50:390ms、p95:640ms、p99:870ms
  • 7.6 GiB VRAM(BF16、量子化なし)
  • FP8は+15%スループット、-44%メモリ、簡易実験で精度低下なし

方法論

  • すべてのモデルで同一テストセット、同一プロンプト、同一評価基準
  • 最先端モデルはデータセットごとに3回実行(平均±標準偏差報告)、蒸留モデルはtemp=0
  • 評価:分類は完全一致、関数呼び出しはtool_call_equivalence(デフォルトパラメータ正規化によるJSON比較)、生成はClaude Sonnet 4.6をLLM-as-a-judgeとして使用
  • コスト:最先端 = 測定APIトークン使用量 × 公開価格(2026年2月)。蒸留 = H100 $2.40/時間 ÷ 測定持続RPS
Ad

実用的な推奨事項

  • 蒸留モデル:構造化タスク、明確なスキーマ、高ボリューム、データ主権要件
  • 最先端API:広範な世界知識、自由形式生成、低ボリューム
  • 最適設定:両者間でのルーティング

利用可能なリソース

すべてのコード、モデル、データ、評価スクリプトはオープンソースでhttps://github.com/distil-labs/inference-efficiency-benchmarks/

チャートとデータセット別詳細を含む完全なブログ記事:https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 完全なソースを読む: r/LocalLLaMA

Ad

👀 See Also

米国防総省、アンソロピックに軍事利用の許可を72時間以内に要求
News

米国防総省、アンソロピックに軍事利用の許可を72時間以内に要求

米国防総省は、Claude AIの開発元であるAnthropicに対し、同社の人工知能システムの軍事利用を許可するよう72時間の最後通告を発した。情報筋によれば、これに従わない場合、国防総省は1950年に制定された法律を発動して同スタートアップ企業の協力を強制するとしている。

OpenClawRadar
OpenClawユーザーは、曖昧なプロンプトによる高いAPIコストを報告しており、開発者は構造化されたワークフローを推奨しています。
News

OpenClawユーザーは、曖昧なプロンプトによる高いAPIコストを報告しており、開発者は構造化されたワークフローを推奨しています。

Redditユーザーが、曖昧なプロンプトによりOpenClawから300ドルのAnthropic請求を受けたと報告。コミュニティは、オーケストレーターは願望的な思考に対する『魔法のランプ』ではなく、明確な意図と構造化されたワークフローで最も効果的に機能すると指摘。

OpenClawRadar
Redditユーザーが10のブログ作成タスクでClaude Sonnet 4.6とGPT-5を比較
News

Redditユーザーが10のブログ作成タスクでClaude Sonnet 4.6とGPT-5を比較

あるRedditユーザーが、Claude Sonnet 4.6とGPT-5を同一のプロンプトで10種類の一般的なブログ作成タスクについてテストし、編集時間の差が最も有用な指標であることを発見しました。

OpenClawRadar
ヤン・ルカンのAIスタートアップ、欧州最大のシードラウンドで10億ドルを調達
News

ヤン・ルカンのAIスタートアップ、欧州最大のシードラウンドで10億ドルを調達

ヤン・ルカンのAIスタートアップが10億ドルを調達し、欧州最大のシードラウンドと報じられています。このニュースはHacker Newsで186ポイント、107コメントを集めて共有されました。

OpenClawRadar