Benchmarks zeigen, dass destillierte Modelle bei strukturierten Aufgaben mit Spitzen-LLMs mithalten können – bei 10-fach geringeren Kosten.

Benchmark-Ergebnisse: Destillierte vs. führende Modelle
Forscher führten einen umfassenden Vergleich kleiner destillierter Modelle mit führenden LLMs über 9 Datensätze durch, die Klassifizierung, Funktionsaufrufe, QA und Open-Book-QA-Aufgaben abdecken. Alle destillierten Modelle stammen aus der Qwen3-Familie (0,6B bis 8B) und wurden mit nur 50 Beispielen trainiert, wobei Open-Weight-Lehrermodelle ohne Trainingsausgaben von führenden APIs verwendet wurden.
Wichtige Leistungsergebnisse
- Destillierte Modelle erreichen oder übertreffen das beste mittlere führende Modell (<1 $/MTok Eingabe) bei 6/9 Aufgaben und liegen bei einer 7. Aufgabe praktisch gleichauf
- Text2SQL: Qwen3-4B destilliert erreicht 98,0 % vs. Claude Haiku 98,7 %, GPT-5 nano 96,0 % bei 3 $/Mio. Anfragen vs. 378 $ bzw. 24 $
- Smart Home (Funktionsaufrufe): Qwen3-0,6B erzielt 98,7 % vs. Gemini Flash 92,0 %
- HotpotQA: Destillierte Modelle erreichen 92,0 % vs. Haiku 98,0 % – freies Schlussfolgern mit Weltwissen bleibt Domäne führender Modelle
- Klassifizierungsaufgaben (Banking77, E-Commerce, TREC): Destillierte Modelle liegen 0–1,5 Prozentpunkte unter der besten führenden Option
Inferenzleistung
Modelle wurden via vLLM auf einer einzelnen H100 mit folgender Text2SQL-4B-Modellleistung bereitgestellt:
- 222 RPS dauerhaft
- p50: 390 ms, p95: 640 ms, p99: 870 ms
- 7,6 GiB VRAM (BF16, keine Quantisierung)
- FP8 brachte +15 % Durchsatz, -44 % Speicher, ohne Genauigkeitsverlust in kurzen Experimenten
Methodik
- Gleiche Testsets, gleiche Prompts, gleiche Bewertungskriterien für alle Modelle
- Führende Modelle 3× pro Datensatz ausgeführt (Mittelwert ± Standardabweichung angegeben), destillierte bei temp=0
- Bewertung: Exact-Match für Klassifizierung, tool_call_equivalence (JSON-Vergleich mit Standardparameternormalisierung) für Funktionsaufrufe, Claude Sonnet 4.6 als LLM-as-a-Judge für Generierung
- Kosten: führend = gemessener API-Tokenverbrauch × veröffentlichte Preise (Feb. 2026). Destilliert = H100 bei 2,40 $/h ÷ gemessene dauerhafte RPS
Praktische Empfehlungen
- Destillieren: strukturierte Aufgaben, klar definierte Schemata, hohes Volumen, Datensouveränitätsanforderungen
- Führende API: breites Weltwissen, freie Generierung, geringes Volumen
- Beste Einrichtung: Routing zwischen beiden
Verfügbare Ressourcen
Alle Codes, Modelle, Daten und Bewertungsskripte sind Open Source unter https://github.com/distil-labs/inference-efficiency-benchmarks/
Vollständiger Blogbeitrag mit Diagrammen und Aufschlüsselungen pro Datensatz: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claude Code v2.1.147: Pinned Sessions, /code-review und Dutzende von Fehlerbehebungen
Claude Code v2.1.147 führt angeheftete Hintergrundsitzungen ein, benennt /simplify in /code-review mit Aufwandsstufen und --comment um und enthält Fehlerbehebungen für PowerShell, MCP, Windows und mehr.

Claude Code: Feedback-Honeypot überschreibt Opt-out für Privatsphäre — Nutzer berichten von Sitzungstranskript-Falle
Anthropics Claude Code fordert Nutzer nun auf, die Überprüfung von Sitzungsprotokollen zu erlauben. Drückt man 'n' für Nein, erscheint die Meldung 'Danke für Ihr Feedback' – und die Daten können dennoch zum Training verwendet werden. Das Verhalten der Taste zum Verwerfen ist unklar.

PeerZero: KI-Agenten führen Peer-Reviews mit Glaubwürdigkeitsbasierten Anreizen durch
PeerZero ist eine Plattform, auf der KI-Agenten Forschungsarbeiten einreichen, die Arbeiten anderer begutachten und ihre Glaubwürdigkeit über ein Kopfgeld-System darauf verwetten, richtig zu liegen. Agenten verdienen oder verlieren Glaubwürdigkeitspunkte basierend auf der Genauigkeit ihrer Begutachtungen, mit einem Mechanismus für gerechtfertigte Außenseiter, der unabhängiges Denken belohnt und Gruppendenken bestraft.

Tokenmaxxing ist die neue Stoppuhr: Warum Ihre KI-Richtlinie kohärent sein muss
Brian Meeker argumentiert gegen Eitelkeitsmetriken wie Tokenmaxxing und teilt die Vier-Punkte-KI-Politik seines Teams: kein Zwang, generierten Code verstehen, ohne KI-Tools überlebensfähig sein, sich um Teamkollegen und Kunden kümmern.