Benchmarks zeigen, dass destillierte Modelle bei strukturierten Aufgaben mit Spitzen-LLMs mithalten können – bei 10-fach geringeren Kosten.

Benchmark-Ergebnisse: Destillierte vs. führende Modelle
Forscher führten einen umfassenden Vergleich kleiner destillierter Modelle mit führenden LLMs über 9 Datensätze durch, die Klassifizierung, Funktionsaufrufe, QA und Open-Book-QA-Aufgaben abdecken. Alle destillierten Modelle stammen aus der Qwen3-Familie (0,6B bis 8B) und wurden mit nur 50 Beispielen trainiert, wobei Open-Weight-Lehrermodelle ohne Trainingsausgaben von führenden APIs verwendet wurden.
Wichtige Leistungsergebnisse
- Destillierte Modelle erreichen oder übertreffen das beste mittlere führende Modell (<1 $/MTok Eingabe) bei 6/9 Aufgaben und liegen bei einer 7. Aufgabe praktisch gleichauf
- Text2SQL: Qwen3-4B destilliert erreicht 98,0 % vs. Claude Haiku 98,7 %, GPT-5 nano 96,0 % bei 3 $/Mio. Anfragen vs. 378 $ bzw. 24 $
- Smart Home (Funktionsaufrufe): Qwen3-0,6B erzielt 98,7 % vs. Gemini Flash 92,0 %
- HotpotQA: Destillierte Modelle erreichen 92,0 % vs. Haiku 98,0 % – freies Schlussfolgern mit Weltwissen bleibt Domäne führender Modelle
- Klassifizierungsaufgaben (Banking77, E-Commerce, TREC): Destillierte Modelle liegen 0–1,5 Prozentpunkte unter der besten führenden Option
Inferenzleistung
Modelle wurden via vLLM auf einer einzelnen H100 mit folgender Text2SQL-4B-Modellleistung bereitgestellt:
- 222 RPS dauerhaft
- p50: 390 ms, p95: 640 ms, p99: 870 ms
- 7,6 GiB VRAM (BF16, keine Quantisierung)
- FP8 brachte +15 % Durchsatz, -44 % Speicher, ohne Genauigkeitsverlust in kurzen Experimenten
Methodik
- Gleiche Testsets, gleiche Prompts, gleiche Bewertungskriterien für alle Modelle
- Führende Modelle 3× pro Datensatz ausgeführt (Mittelwert ± Standardabweichung angegeben), destillierte bei temp=0
- Bewertung: Exact-Match für Klassifizierung, tool_call_equivalence (JSON-Vergleich mit Standardparameternormalisierung) für Funktionsaufrufe, Claude Sonnet 4.6 als LLM-as-a-Judge für Generierung
- Kosten: führend = gemessener API-Tokenverbrauch × veröffentlichte Preise (Feb. 2026). Destilliert = H100 bei 2,40 $/h ÷ gemessene dauerhafte RPS
Praktische Empfehlungen
- Destillieren: strukturierte Aufgaben, klar definierte Schemata, hohes Volumen, Datensouveränitätsanforderungen
- Führende API: breites Weltwissen, freie Generierung, geringes Volumen
- Beste Einrichtung: Routing zwischen beiden
Verfügbare Ressourcen
Alle Codes, Modelle, Daten und Bewertungsskripte sind Open Source unter https://github.com/distil-labs/inference-efficiency-benchmarks/
Vollständiger Blogbeitrag mit Diagrammen und Aufschlüsselungen pro Datensatz: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Feinabgestimmte Qwen3-Kleinstmodelle übertreffen Spitzen-LLMs bei spezifischen Aufgaben zu geringeren Kosten
Destillierte Qwen3-Modelle (0,6B bis 8B Parameter) übertrafen oder erreichten Spitzen-API-Modelle wie GPT-5, Gemini und Claude bei 6 von 9 Aufgaben, einschließlich Funktionsaufrufen und Text2SQL, mit Kosten von nur 3 US-Dollar pro Million Anfragen gegenüber 378 US-Dollar für vergleichbare Leistung.

Cursor AI-Studie: Kurzfristige Geschwindigkeitsgewinne führen zu langfristiger Komplexität
Eine Studie mit einer Differenz-in-Differenzen-Analyse ergab, dass die Einführung von Cursor AI zu statistisch signifikanten, aber vorübergehenden Geschwindigkeitssteigerungen führt, zusammen mit erheblichen und anhaltenden Zunahmen von statischen Analysewarnungen und Codekomplexität, die langfristige Verlangsamungen verursachen.

Anthropic entfernt Zugriff auf Gmail-Nachrichtentexte aus Claude Connector
Anthropic hat die Tools gmail_read_message und gmail_search_messages aus dem Gmail-Connector entfernt und durch get_thread und search_threads ersetzt, die keine Nachrichtentexte oder Anhänge mehr zurückgeben.

Sam Altman, Trump und Bernie Sanders vereint in der öffentlichen Kontrolle der KI-Infrastruktur
Sam Altman, Donald Trump und Bernie Sanders sind sich selten einig: KI-Infrastruktur sollte in öffentlichem Besitz sein. Der AP-Bericht beschreibt den ungewöhnlichen überparteilichen Konsens über das Modell des öffentlichen Eigentums.