ベンチマークによると、蒸留モデルは構造化タスクにおいて最先端LLMと同等の性能を10分の1のコストで達成しています

ベンチマーク結果:蒸留モデル vs 最先端モデル
研究者は、分類、関数呼び出し、QA、オープンブックQAタスクをカバーする9つのデータセットで、小型蒸留モデルと最先端LLMの包括的比較を実施。すべての蒸留モデルはQwen3ファミリー(0.6Bから8B)で、わずか50例のデータを使用し、最先端API出力なしのオープンウェイト教師モデルで学習。
主要な性能発見
- 蒸留モデルは9タスク中6タスクで最良の中堅最先端モデル(<$1/MTok入力)に匹敵または上回り、7つ目では実質的に同性能
- Text2SQL:Qwen3-4B蒸留は98.0% vs Claude Haiku 98.7%、GPT-5 nano 96.0%を$3/Mリクエスト vs $378および$24で達成
- スマートホーム(関数呼び出し):Qwen3-0.6Bは98.7% vs Gemini Flashの92.0%
- HotpotQA:蒸留モデルは92.0% vs Haikuの98.0% - 世界知識を用いた自由回答推論は依然として最先端領域
- 分類タスク(Banking77、E-commerce、TREC):蒸留モデルは最良の最先端オプションと0-1.5ポイント差
推論性能
モデルは単一H100上のvLLMで提供され、Text2SQL 4Bモデルの性能は以下:
- 222 RPS持続
- p50:390ms、p95:640ms、p99:870ms
- 7.6 GiB VRAM(BF16、量子化なし)
- FP8は+15%スループット、-44%メモリ、簡易実験で精度低下なし
方法論
- すべてのモデルで同一テストセット、同一プロンプト、同一評価基準
- 最先端モデルはデータセットごとに3回実行(平均±標準偏差報告)、蒸留モデルはtemp=0
- 評価:分類は完全一致、関数呼び出しはtool_call_equivalence(デフォルトパラメータ正規化によるJSON比較)、生成はClaude Sonnet 4.6をLLM-as-a-judgeとして使用
- コスト:最先端 = 測定APIトークン使用量 × 公開価格(2026年2月)。蒸留 = H100 $2.40/時間 ÷ 測定持続RPS
実用的な推奨事項
- 蒸留モデル:構造化タスク、明確なスキーマ、高ボリューム、データ主権要件
- 最先端API:広範な世界知識、自由形式生成、低ボリューム
- 最適設定:両者間でのルーティング
利用可能なリソース
すべてのコード、モデル、データ、評価スクリプトはオープンソースでhttps://github.com/distil-labs/inference-efficiency-benchmarks/
チャートとデータセット別詳細を含む完全なブログ記事:https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

米国防総省、アンソロピックに軍事利用の許可を72時間以内に要求
米国防総省は、Claude AIの開発元であるAnthropicに対し、同社の人工知能システムの軍事利用を許可するよう72時間の最後通告を発した。情報筋によれば、これに従わない場合、国防総省は1950年に制定された法律を発動して同スタートアップ企業の協力を強制するとしている。

OpenClawユーザーは、曖昧なプロンプトによる高いAPIコストを報告しており、開発者は構造化されたワークフローを推奨しています。
Redditユーザーが、曖昧なプロンプトによりOpenClawから300ドルのAnthropic請求を受けたと報告。コミュニティは、オーケストレーターは願望的な思考に対する『魔法のランプ』ではなく、明確な意図と構造化されたワークフローで最も効果的に機能すると指摘。

Redditユーザーが10のブログ作成タスクでClaude Sonnet 4.6とGPT-5を比較
あるRedditユーザーが、Claude Sonnet 4.6とGPT-5を同一のプロンプトで10種類の一般的なブログ作成タスクについてテストし、編集時間の差が最も有用な指標であることを発見しました。

ヤン・ルカンのAIスタートアップ、欧州最大のシードラウンドで10億ドルを調達
ヤン・ルカンのAIスタートアップが10億ドルを調達し、欧州最大のシードラウンドと報じられています。このニュースはHacker Newsで186ポイント、107コメントを集めて共有されました。