Qwen3 0.6B-8B: 6 von 9 Aufgaben vs. Top-LLMs

Ein systematischer Vergleich kleiner destillierter Qwen3-Modelle mit Spitzen-API-Modellen zeigt, dass feinabgestimmte kleine Sprachmodelle größere, teurere Modelle bei bestimmten strukturierten Aufgaben übertreffen können.

Benchmark-Ergebnisse

Die Studie verglich Qwen3-Modelle (0,6B bis 8B Parameter) mit Spitzen-APIs, darunter GPT-5 nano/mini/5.2, Gemini 2.5 Flash Lite/Flash, Claude Haiku 4.5/Sonnet 4.6/Opus 4.6 und Grok 4.1 Fast/Grok 4 über 9 Datensätze. Alle destillierten Modelle wurden ausschließlich mit Open-Weight-Lehrern trainiert, mit nur 50 Beispielen. Die Inferenz wurde auf vLLM auf einer einzelnen H100 durchgeführt.

Wichtige Leistungsergebnisse

Smart-Home-Funktionsaufrufe: Qwen3-0.6B erreichte 98,7 % Genauigkeit gegenüber Gemini Flash mit 92,0 %
Text2SQL: Destilliertes Qwen3-4B erreichte 98,0 % gegenüber Claude Haiku mit 98,7 % und GPT-5 nano mit 96,0 %
Kostenvergleich: Text2SQL-Kosten pro Million Anfragen: Qwen3-4B ~3 US-Dollar gegenüber Claude Haiku 378 US-Dollar und GPT-5 nano 24 US-Dollar
Klassifizierungsaufgaben: Destillierte Modelle lagen innerhalb von 0–1,5 Prozentpunkten der besten Spitzenoption bei Banking77, E-Commerce und TREC-Datensätzen
Spitzenvorteil: HotpotQA (freies Denken + Weltwissen) — 92,0 % gegenüber Haiku mit 98,0 %

Leistungsmetriken

Für Text2SQL mit Qwen3-4B auf H100:

222 RPS dauerhaft
p50: 390ms | p95: 640ms | p99: 870ms
7,6 GiB VRAM (BF16, keine Quantisierung)
FP8 ergab +15 % Durchsatz, −44 % VRAM, kein messbarer Genauigkeitsverlust in kurzen Experimenten

Methodik

Gleiche Testsets, Prompts und Bewertungskriterien für alle Modelle
Spitzenmodelle 3× pro Datensatz ausgeführt (Mittelwert ± Standardabweichung), destilliert bei Temperatur=0
Bewertung: Exakte Übereinstimmung für Klassifizierung, tool_call_equivalence (JSON-Vergleich mit Standardparameter-Normalisierung) für Funktionsaufrufe, Claude Sonnet 4.6 als LLM-Judge für Generierungsaufgaben
Kostenberechnung: Spitzenmodelle = gemessene Token-Nutzung × veröffentlichte Preise (Feb. 2026); destilliert = H100 bei 2,40 US-Dollar/Std. ÷ dauerhafte RPS

Praktische Empfehlungen

Destillierte Modelle verwenden, wenn: Sie strukturierte Aufgaben, klar definierte Schemata, hohes Volumen oder Datensouveränitätsbedürfnisse haben
Spitzen-APIs verwenden, wenn: Sie breites Weltwissen, freie Generierung benötigen oder das Volumen so gering ist, dass Kosten keine Rolle spielen
Hybrider Ansatz: Zwischen beiden basierend auf Aufgabenanforderungen wechseln

Verfügbarkeit

Alle Codes, Modelle, Daten und Bewertungsskripte sind Open Source auf GitHub: https://github.com/distil-labs/inference-efficiency-benchmarks/

Vollständige Analyse mit Diagrammen verfügbar im Blog: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 Read the full source: r/LocalLLaMA

Feinabgestimmte Qwen3-Kleinstmodelle übertreffen Spitzen-LLMs bei spezifischen Aufgaben zu geringeren Kosten

Benchmark-Ergebnisse

Wichtige Leistungsergebnisse

Leistungsmetriken

Methodik

Praktische Empfehlungen

Verfügbarkeit

👀 Siehe auch

Anhaltender Datenverlust in Claude-Projekten: Gespräche verschwinden ohne Wiederherstellung

Claude Code wird plötzlich risikoscheu und verlangt bei Routineaufgaben um Erlaubnis

OpenAI finanzierte heimlich eine Interessenvertretungsgruppe für Altersüberprüfung in Kalifornien

OpenRouter-Benutzer melden Signatur-Bug in Sonnet 4.5 Thinking Blocks