Benchmarks zeigen, dass destillierte Modelle bei strukturierten Aufgaben mit Spitzen-LLMs mithalten können – bei 10-fach geringeren Kosten.

✍️ OpenClawRadar📅 Veröffentlicht: 7. März 2026🔗 Source
Benchmarks zeigen, dass destillierte Modelle bei strukturierten Aufgaben mit Spitzen-LLMs mithalten können – bei 10-fach geringeren Kosten.
Ad

Benchmark-Ergebnisse: Destillierte vs. führende Modelle

Forscher führten einen umfassenden Vergleich kleiner destillierter Modelle mit führenden LLMs über 9 Datensätze durch, die Klassifizierung, Funktionsaufrufe, QA und Open-Book-QA-Aufgaben abdecken. Alle destillierten Modelle stammen aus der Qwen3-Familie (0,6B bis 8B) und wurden mit nur 50 Beispielen trainiert, wobei Open-Weight-Lehrermodelle ohne Trainingsausgaben von führenden APIs verwendet wurden.

Wichtige Leistungsergebnisse

  • Destillierte Modelle erreichen oder übertreffen das beste mittlere führende Modell (<1 $/MTok Eingabe) bei 6/9 Aufgaben und liegen bei einer 7. Aufgabe praktisch gleichauf
  • Text2SQL: Qwen3-4B destilliert erreicht 98,0 % vs. Claude Haiku 98,7 %, GPT-5 nano 96,0 % bei 3 $/Mio. Anfragen vs. 378 $ bzw. 24 $
  • Smart Home (Funktionsaufrufe): Qwen3-0,6B erzielt 98,7 % vs. Gemini Flash 92,0 %
  • HotpotQA: Destillierte Modelle erreichen 92,0 % vs. Haiku 98,0 % – freies Schlussfolgern mit Weltwissen bleibt Domäne führender Modelle
  • Klassifizierungsaufgaben (Banking77, E-Commerce, TREC): Destillierte Modelle liegen 0–1,5 Prozentpunkte unter der besten führenden Option

Inferenzleistung

Modelle wurden via vLLM auf einer einzelnen H100 mit folgender Text2SQL-4B-Modellleistung bereitgestellt:

  • 222 RPS dauerhaft
  • p50: 390 ms, p95: 640 ms, p99: 870 ms
  • 7,6 GiB VRAM (BF16, keine Quantisierung)
  • FP8 brachte +15 % Durchsatz, -44 % Speicher, ohne Genauigkeitsverlust in kurzen Experimenten
Ad

Methodik

  • Gleiche Testsets, gleiche Prompts, gleiche Bewertungskriterien für alle Modelle
  • Führende Modelle 3× pro Datensatz ausgeführt (Mittelwert ± Standardabweichung angegeben), destillierte bei temp=0
  • Bewertung: Exact-Match für Klassifizierung, tool_call_equivalence (JSON-Vergleich mit Standardparameternormalisierung) für Funktionsaufrufe, Claude Sonnet 4.6 als LLM-as-a-Judge für Generierung
  • Kosten: führend = gemessener API-Tokenverbrauch × veröffentlichte Preise (Feb. 2026). Destilliert = H100 bei 2,40 $/h ÷ gemessene dauerhafte RPS

Praktische Empfehlungen

  • Destillieren: strukturierte Aufgaben, klar definierte Schemata, hohes Volumen, Datensouveränitätsanforderungen
  • Führende API: breites Weltwissen, freie Generierung, geringes Volumen
  • Beste Einrichtung: Routing zwischen beiden

Verfügbare Ressourcen

Alle Codes, Modelle, Daten und Bewertungsskripte sind Open Source unter https://github.com/distil-labs/inference-efficiency-benchmarks/

Vollständiger Blogbeitrag mit Diagrammen und Aufschlüsselungen pro Datensatz: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Feinabgestimmte Qwen3-Kleinstmodelle übertreffen Spitzen-LLMs bei spezifischen Aufgaben zu geringeren Kosten
Nachrichten

Feinabgestimmte Qwen3-Kleinstmodelle übertreffen Spitzen-LLMs bei spezifischen Aufgaben zu geringeren Kosten

Destillierte Qwen3-Modelle (0,6B bis 8B Parameter) übertrafen oder erreichten Spitzen-API-Modelle wie GPT-5, Gemini und Claude bei 6 von 9 Aufgaben, einschließlich Funktionsaufrufen und Text2SQL, mit Kosten von nur 3 US-Dollar pro Million Anfragen gegenüber 378 US-Dollar für vergleichbare Leistung.

OpenClawRadar
Cursor AI-Studie: Kurzfristige Geschwindigkeitsgewinne führen zu langfristiger Komplexität
Nachrichten

Cursor AI-Studie: Kurzfristige Geschwindigkeitsgewinne führen zu langfristiger Komplexität

Eine Studie mit einer Differenz-in-Differenzen-Analyse ergab, dass die Einführung von Cursor AI zu statistisch signifikanten, aber vorübergehenden Geschwindigkeitssteigerungen führt, zusammen mit erheblichen und anhaltenden Zunahmen von statischen Analysewarnungen und Codekomplexität, die langfristige Verlangsamungen verursachen.

OpenClawRadar
Anthropic entfernt Zugriff auf Gmail-Nachrichtentexte aus Claude Connector
Nachrichten

Anthropic entfernt Zugriff auf Gmail-Nachrichtentexte aus Claude Connector

Anthropic hat die Tools gmail_read_message und gmail_search_messages aus dem Gmail-Connector entfernt und durch get_thread und search_threads ersetzt, die keine Nachrichtentexte oder Anhänge mehr zurückgeben.

OpenClawRadar
Sam Altman, Trump und Bernie Sanders vereint in der öffentlichen Kontrolle der KI-Infrastruktur
Nachrichten

Sam Altman, Trump und Bernie Sanders vereint in der öffentlichen Kontrolle der KI-Infrastruktur

Sam Altman, Donald Trump und Bernie Sanders sind sich selten einig: KI-Infrastruktur sollte in öffentlichem Besitz sein. Der AP-Bericht beschreibt den ungewöhnlichen überparteilichen Konsens über das Modell des öffentlichen Eigentums.

OpenClawRadar