Feinabgestimmte Qwen3-Kleinstmodelle übertreffen Spitzen-LLMs bei spezifischen Aufgaben zu geringeren Kosten

✍️ OpenClawRadar📅 Veröffentlicht: 9. März 2026🔗 Source
Feinabgestimmte Qwen3-Kleinstmodelle übertreffen Spitzen-LLMs bei spezifischen Aufgaben zu geringeren Kosten
Ad

Ein systematischer Vergleich kleiner destillierter Qwen3-Modelle mit Spitzen-API-Modellen zeigt, dass feinabgestimmte kleine Sprachmodelle größere, teurere Modelle bei bestimmten strukturierten Aufgaben übertreffen können.

Benchmark-Ergebnisse

Die Studie verglich Qwen3-Modelle (0,6B bis 8B Parameter) mit Spitzen-APIs, darunter GPT-5 nano/mini/5.2, Gemini 2.5 Flash Lite/Flash, Claude Haiku 4.5/Sonnet 4.6/Opus 4.6 und Grok 4.1 Fast/Grok 4 über 9 Datensätze. Alle destillierten Modelle wurden ausschließlich mit Open-Weight-Lehrern trainiert, mit nur 50 Beispielen. Die Inferenz wurde auf vLLM auf einer einzelnen H100 durchgeführt.

Wichtige Leistungsergebnisse

  • Smart-Home-Funktionsaufrufe: Qwen3-0.6B erreichte 98,7 % Genauigkeit gegenüber Gemini Flash mit 92,0 %
  • Text2SQL: Destilliertes Qwen3-4B erreichte 98,0 % gegenüber Claude Haiku mit 98,7 % und GPT-5 nano mit 96,0 %
  • Kostenvergleich: Text2SQL-Kosten pro Million Anfragen: Qwen3-4B ~3 US-Dollar gegenüber Claude Haiku 378 US-Dollar und GPT-5 nano 24 US-Dollar
  • Klassifizierungsaufgaben: Destillierte Modelle lagen innerhalb von 0–1,5 Prozentpunkten der besten Spitzenoption bei Banking77, E-Commerce und TREC-Datensätzen
  • Spitzenvorteil: HotpotQA (freies Denken + Weltwissen) — 92,0 % gegenüber Haiku mit 98,0 %

Leistungsmetriken

Für Text2SQL mit Qwen3-4B auf H100:

  • 222 RPS dauerhaft
  • p50: 390ms | p95: 640ms | p99: 870ms
  • 7,6 GiB VRAM (BF16, keine Quantisierung)
  • FP8 ergab +15 % Durchsatz, −44 % VRAM, kein messbarer Genauigkeitsverlust in kurzen Experimenten
Ad

Methodik

  • Gleiche Testsets, Prompts und Bewertungskriterien für alle Modelle
  • Spitzenmodelle 3× pro Datensatz ausgeführt (Mittelwert ± Standardabweichung), destilliert bei Temperatur=0
  • Bewertung: Exakte Übereinstimmung für Klassifizierung, tool_call_equivalence (JSON-Vergleich mit Standardparameter-Normalisierung) für Funktionsaufrufe, Claude Sonnet 4.6 als LLM-Judge für Generierungsaufgaben
  • Kostenberechnung: Spitzenmodelle = gemessene Token-Nutzung × veröffentlichte Preise (Feb. 2026); destilliert = H100 bei 2,40 US-Dollar/Std. ÷ dauerhafte RPS

Praktische Empfehlungen

  • Destillierte Modelle verwenden, wenn: Sie strukturierte Aufgaben, klar definierte Schemata, hohes Volumen oder Datensouveränitätsbedürfnisse haben
  • Spitzen-APIs verwenden, wenn: Sie breites Weltwissen, freie Generierung benötigen oder das Volumen so gering ist, dass Kosten keine Rolle spielen
  • Hybrider Ansatz: Zwischen beiden basierend auf Aufgabenanforderungen wechseln

Verfügbarkeit

Alle Codes, Modelle, Daten und Bewertungsskripte sind Open Source auf GitHub: https://github.com/distil-labs/inference-efficiency-benchmarks/

Vollständige Analyse mit Diagrammen verfügbar im Blog: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Anhaltender Datenverlust in Claude-Projekten: Gespräche verschwinden ohne Wiederherstellung
Nachrichten

Anhaltender Datenverlust in Claude-Projekten: Gespräche verschwinden ohne Wiederherstellung

Ein Autor von Langtexten berichtet, dass in Claude Projects ganze Arbeitstage verloren gehen, da Konversationen aus der Projekt-Chatliste verschwinden, nicht suchbar und nicht wiederherstellbar sind. Nach drei Vorfällen gab es keine Antwort vom Anthropic-Support.

OpenClawRadar
Claude Code wird plötzlich risikoscheu und verlangt bei Routineaufgaben um Erlaubnis
Nachrichten

Claude Code wird plötzlich risikoscheu und verlangt bei Routineaufgaben um Erlaubnis

Ein Benutzer berichtet, dass Claude Code zeitweise von autonomer Ausführung zu übermäßigen Berechtigungsanfragen wechselt, selbst bei täglichen, unveränderten Arbeitsabläufen wie dem Neuerstellen eines Monorepos und dem Ausführen von Tests.

OpenClawRadar
OpenAI finanzierte heimlich eine Interessenvertretungsgruppe für Altersüberprüfung in Kalifornien
Nachrichten

OpenAI finanzierte heimlich eine Interessenvertretungsgruppe für Altersüberprüfung in Kalifornien

OpenAI hat heimlich die Parents and Kids Safe AI Coalition finanziert, eine kalifornische Gruppe, die sich für Altersverifikationsanforderungen in der KI einsetzt, während es seine Beteiligung vor anderen Interessenvertretungsorganisationen verbarg. Das Unternehmen sagte 10 Millionen US-Dollar zu, um die Gesetzgebung des Parents and Kids Safe AI Act zu unterstützen.

OpenClawRadar
OpenRouter-Benutzer melden Signatur-Bug in Sonnet 4.5 Thinking Blocks
Nachrichten

OpenRouter-Benutzer melden Signatur-Bug in Sonnet 4.5 Thinking Blocks

Ein Bug im extended thinking Modus von Claude Sonnet 4.5 ueber OpenRouter verursacht Signaturvalidierungsfehler.

OpenClaw Radar