Destillierte Modelle vs. Spitzen-LLMs: 90% Kosteneinsparung

Benchmark-Ergebnisse: Destillierte vs. führende Modelle

Forscher führten einen umfassenden Vergleich kleiner destillierter Modelle mit führenden LLMs über 9 Datensätze durch, die Klassifizierung, Funktionsaufrufe, QA und Open-Book-QA-Aufgaben abdecken. Alle destillierten Modelle stammen aus der Qwen3-Familie (0,6B bis 8B) und wurden mit nur 50 Beispielen trainiert, wobei Open-Weight-Lehrermodelle ohne Trainingsausgaben von führenden APIs verwendet wurden.

Wichtige Leistungsergebnisse

Destillierte Modelle erreichen oder übertreffen das beste mittlere führende Modell (<1 $/MTok Eingabe) bei 6/9 Aufgaben und liegen bei einer 7. Aufgabe praktisch gleichauf
Text2SQL: Qwen3-4B destilliert erreicht 98,0 % vs. Claude Haiku 98,7 %, GPT-5 nano 96,0 % bei 3 $/Mio. Anfragen vs. 378 $ bzw. 24 $
Smart Home (Funktionsaufrufe): Qwen3-0,6B erzielt 98,7 % vs. Gemini Flash 92,0 %
HotpotQA: Destillierte Modelle erreichen 92,0 % vs. Haiku 98,0 % – freies Schlussfolgern mit Weltwissen bleibt Domäne führender Modelle
Klassifizierungsaufgaben (Banking77, E-Commerce, TREC): Destillierte Modelle liegen 0–1,5 Prozentpunkte unter der besten führenden Option

Inferenzleistung

Modelle wurden via vLLM auf einer einzelnen H100 mit folgender Text2SQL-4B-Modellleistung bereitgestellt:

222 RPS dauerhaft
p50: 390 ms, p95: 640 ms, p99: 870 ms
7,6 GiB VRAM (BF16, keine Quantisierung)
FP8 brachte +15 % Durchsatz, -44 % Speicher, ohne Genauigkeitsverlust in kurzen Experimenten

Methodik

Gleiche Testsets, gleiche Prompts, gleiche Bewertungskriterien für alle Modelle
Führende Modelle 3× pro Datensatz ausgeführt (Mittelwert ± Standardabweichung angegeben), destillierte bei temp=0
Bewertung: Exact-Match für Klassifizierung, tool_call_equivalence (JSON-Vergleich mit Standardparameternormalisierung) für Funktionsaufrufe, Claude Sonnet 4.6 als LLM-as-a-Judge für Generierung
Kosten: führend = gemessener API-Tokenverbrauch × veröffentlichte Preise (Feb. 2026). Destilliert = H100 bei 2,40 $/h ÷ gemessene dauerhafte RPS

Praktische Empfehlungen

Destillieren: strukturierte Aufgaben, klar definierte Schemata, hohes Volumen, Datensouveränitätsanforderungen
Führende API: breites Weltwissen, freie Generierung, geringes Volumen
Beste Einrichtung: Routing zwischen beiden

Verfügbare Ressourcen

Alle Codes, Modelle, Daten und Bewertungsskripte sind Open Source unter https://github.com/distil-labs/inference-efficiency-benchmarks/

Vollständiger Blogbeitrag mit Diagrammen und Aufschlüsselungen pro Datensatz: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 Read the full source: r/LocalLLaMA

Benchmarks zeigen, dass destillierte Modelle bei strukturierten Aufgaben mit Spitzen-LLMs mithalten können – bei 10-fach geringeren Kosten.

Benchmark-Ergebnisse: Destillierte vs. führende Modelle

Wichtige Leistungsergebnisse

Inferenzleistung

Methodik

Praktische Empfehlungen

Verfügbare Ressourcen

👀 Siehe auch

Claude Code v2.1.147: Pinned Sessions, /code-review und Dutzende von Fehlerbehebungen

Claude Code: Feedback-Honeypot überschreibt Opt-out für Privatsphäre — Nutzer berichten von Sitzungstranskript-Falle

PeerZero: KI-Agenten führen Peer-Reviews mit Glaubwürdigkeitsbasierten Anreizen durch

Tokenmaxxing ist die neue Stoppuhr: Warum Ihre KI-Richtlinie kohärent sein muss