Feinabgestimmte Qwen3-Kleinstmodelle übertreffen Spitzen-LLMs bei spezifischen Aufgaben zu geringeren Kosten

Ein systematischer Vergleich kleiner destillierter Qwen3-Modelle mit Spitzen-API-Modellen zeigt, dass feinabgestimmte kleine Sprachmodelle größere, teurere Modelle bei bestimmten strukturierten Aufgaben übertreffen können.
Benchmark-Ergebnisse
Die Studie verglich Qwen3-Modelle (0,6B bis 8B Parameter) mit Spitzen-APIs, darunter GPT-5 nano/mini/5.2, Gemini 2.5 Flash Lite/Flash, Claude Haiku 4.5/Sonnet 4.6/Opus 4.6 und Grok 4.1 Fast/Grok 4 über 9 Datensätze. Alle destillierten Modelle wurden ausschließlich mit Open-Weight-Lehrern trainiert, mit nur 50 Beispielen. Die Inferenz wurde auf vLLM auf einer einzelnen H100 durchgeführt.
Wichtige Leistungsergebnisse
- Smart-Home-Funktionsaufrufe: Qwen3-0.6B erreichte 98,7 % Genauigkeit gegenüber Gemini Flash mit 92,0 %
- Text2SQL: Destilliertes Qwen3-4B erreichte 98,0 % gegenüber Claude Haiku mit 98,7 % und GPT-5 nano mit 96,0 %
- Kostenvergleich: Text2SQL-Kosten pro Million Anfragen: Qwen3-4B ~3 US-Dollar gegenüber Claude Haiku 378 US-Dollar und GPT-5 nano 24 US-Dollar
- Klassifizierungsaufgaben: Destillierte Modelle lagen innerhalb von 0–1,5 Prozentpunkten der besten Spitzenoption bei Banking77, E-Commerce und TREC-Datensätzen
- Spitzenvorteil: HotpotQA (freies Denken + Weltwissen) — 92,0 % gegenüber Haiku mit 98,0 %
Leistungsmetriken
Für Text2SQL mit Qwen3-4B auf H100:
- 222 RPS dauerhaft
- p50: 390ms | p95: 640ms | p99: 870ms
- 7,6 GiB VRAM (BF16, keine Quantisierung)
- FP8 ergab +15 % Durchsatz, −44 % VRAM, kein messbarer Genauigkeitsverlust in kurzen Experimenten
Methodik
- Gleiche Testsets, Prompts und Bewertungskriterien für alle Modelle
- Spitzenmodelle 3× pro Datensatz ausgeführt (Mittelwert ± Standardabweichung), destilliert bei Temperatur=0
- Bewertung: Exakte Übereinstimmung für Klassifizierung, tool_call_equivalence (JSON-Vergleich mit Standardparameter-Normalisierung) für Funktionsaufrufe, Claude Sonnet 4.6 als LLM-Judge für Generierungsaufgaben
- Kostenberechnung: Spitzenmodelle = gemessene Token-Nutzung × veröffentlichte Preise (Feb. 2026); destilliert = H100 bei 2,40 US-Dollar/Std. ÷ dauerhafte RPS
Praktische Empfehlungen
- Destillierte Modelle verwenden, wenn: Sie strukturierte Aufgaben, klar definierte Schemata, hohes Volumen oder Datensouveränitätsbedürfnisse haben
- Spitzen-APIs verwenden, wenn: Sie breites Weltwissen, freie Generierung benötigen oder das Volumen so gering ist, dass Kosten keine Rolle spielen
- Hybrider Ansatz: Zwischen beiden basierend auf Aufgabenanforderungen wechseln
Verfügbarkeit
Alle Codes, Modelle, Daten und Bewertungsskripte sind Open Source auf GitHub: https://github.com/distil-labs/inference-efficiency-benchmarks/
Vollständige Analyse mit Diagrammen verfügbar im Blog: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Anhaltender Datenverlust in Claude-Projekten: Gespräche verschwinden ohne Wiederherstellung
Ein Autor von Langtexten berichtet, dass in Claude Projects ganze Arbeitstage verloren gehen, da Konversationen aus der Projekt-Chatliste verschwinden, nicht suchbar und nicht wiederherstellbar sind. Nach drei Vorfällen gab es keine Antwort vom Anthropic-Support.

Claude Code wird plötzlich risikoscheu und verlangt bei Routineaufgaben um Erlaubnis
Ein Benutzer berichtet, dass Claude Code zeitweise von autonomer Ausführung zu übermäßigen Berechtigungsanfragen wechselt, selbst bei täglichen, unveränderten Arbeitsabläufen wie dem Neuerstellen eines Monorepos und dem Ausführen von Tests.

OpenAI finanzierte heimlich eine Interessenvertretungsgruppe für Altersüberprüfung in Kalifornien
OpenAI hat heimlich die Parents and Kids Safe AI Coalition finanziert, eine kalifornische Gruppe, die sich für Altersverifikationsanforderungen in der KI einsetzt, während es seine Beteiligung vor anderen Interessenvertretungsorganisationen verbarg. Das Unternehmen sagte 10 Millionen US-Dollar zu, um die Gesetzgebung des Parents and Kids Safe AI Act zu unterstützen.

OpenRouter-Benutzer melden Signatur-Bug in Sonnet 4.5 Thinking Blocks
Ein Bug im extended thinking Modus von Claude Sonnet 4.5 ueber OpenRouter verursacht Signaturvalidierungsfehler.