Benchmarks zeigen, dass destillierte Modelle bei strukturierten Aufgaben mit Spitzen-LLMs mithalten können – bei 10-fach geringeren Kosten.

✍️ OpenClawRadar📅 Veröffentlicht: 7. März 2026🔗 Source
Benchmarks zeigen, dass destillierte Modelle bei strukturierten Aufgaben mit Spitzen-LLMs mithalten können – bei 10-fach geringeren Kosten.
Ad

Benchmark-Ergebnisse: Destillierte vs. führende Modelle

Forscher führten einen umfassenden Vergleich kleiner destillierter Modelle mit führenden LLMs über 9 Datensätze durch, die Klassifizierung, Funktionsaufrufe, QA und Open-Book-QA-Aufgaben abdecken. Alle destillierten Modelle stammen aus der Qwen3-Familie (0,6B bis 8B) und wurden mit nur 50 Beispielen trainiert, wobei Open-Weight-Lehrermodelle ohne Trainingsausgaben von führenden APIs verwendet wurden.

Wichtige Leistungsergebnisse

  • Destillierte Modelle erreichen oder übertreffen das beste mittlere führende Modell (<1 $/MTok Eingabe) bei 6/9 Aufgaben und liegen bei einer 7. Aufgabe praktisch gleichauf
  • Text2SQL: Qwen3-4B destilliert erreicht 98,0 % vs. Claude Haiku 98,7 %, GPT-5 nano 96,0 % bei 3 $/Mio. Anfragen vs. 378 $ bzw. 24 $
  • Smart Home (Funktionsaufrufe): Qwen3-0,6B erzielt 98,7 % vs. Gemini Flash 92,0 %
  • HotpotQA: Destillierte Modelle erreichen 92,0 % vs. Haiku 98,0 % – freies Schlussfolgern mit Weltwissen bleibt Domäne führender Modelle
  • Klassifizierungsaufgaben (Banking77, E-Commerce, TREC): Destillierte Modelle liegen 0–1,5 Prozentpunkte unter der besten führenden Option

Inferenzleistung

Modelle wurden via vLLM auf einer einzelnen H100 mit folgender Text2SQL-4B-Modellleistung bereitgestellt:

  • 222 RPS dauerhaft
  • p50: 390 ms, p95: 640 ms, p99: 870 ms
  • 7,6 GiB VRAM (BF16, keine Quantisierung)
  • FP8 brachte +15 % Durchsatz, -44 % Speicher, ohne Genauigkeitsverlust in kurzen Experimenten
Ad

Methodik

  • Gleiche Testsets, gleiche Prompts, gleiche Bewertungskriterien für alle Modelle
  • Führende Modelle 3× pro Datensatz ausgeführt (Mittelwert ± Standardabweichung angegeben), destillierte bei temp=0
  • Bewertung: Exact-Match für Klassifizierung, tool_call_equivalence (JSON-Vergleich mit Standardparameternormalisierung) für Funktionsaufrufe, Claude Sonnet 4.6 als LLM-as-a-Judge für Generierung
  • Kosten: führend = gemessener API-Tokenverbrauch × veröffentlichte Preise (Feb. 2026). Destilliert = H100 bei 2,40 $/h ÷ gemessene dauerhafte RPS

Praktische Empfehlungen

  • Destillieren: strukturierte Aufgaben, klar definierte Schemata, hohes Volumen, Datensouveränitätsanforderungen
  • Führende API: breites Weltwissen, freie Generierung, geringes Volumen
  • Beste Einrichtung: Routing zwischen beiden

Verfügbare Ressourcen

Alle Codes, Modelle, Daten und Bewertungsskripte sind Open Source unter https://github.com/distil-labs/inference-efficiency-benchmarks/

Vollständiger Blogbeitrag mit Diagrammen und Aufschlüsselungen pro Datensatz: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Claude Code v2.1.147: Pinned Sessions, /code-review und Dutzende von Fehlerbehebungen
Nachrichten

Claude Code v2.1.147: Pinned Sessions, /code-review und Dutzende von Fehlerbehebungen

Claude Code v2.1.147 führt angeheftete Hintergrundsitzungen ein, benennt /simplify in /code-review mit Aufwandsstufen und --comment um und enthält Fehlerbehebungen für PowerShell, MCP, Windows und mehr.

OpenClawRadar
Claude Code: Feedback-Honeypot überschreibt Opt-out für Privatsphäre — Nutzer berichten von Sitzungstranskript-Falle
Nachrichten

Claude Code: Feedback-Honeypot überschreibt Opt-out für Privatsphäre — Nutzer berichten von Sitzungstranskript-Falle

Anthropics Claude Code fordert Nutzer nun auf, die Überprüfung von Sitzungsprotokollen zu erlauben. Drückt man 'n' für Nein, erscheint die Meldung 'Danke für Ihr Feedback' – und die Daten können dennoch zum Training verwendet werden. Das Verhalten der Taste zum Verwerfen ist unklar.

OpenClawRadar
PeerZero: KI-Agenten führen Peer-Reviews mit Glaubwürdigkeitsbasierten Anreizen durch
Nachrichten

PeerZero: KI-Agenten führen Peer-Reviews mit Glaubwürdigkeitsbasierten Anreizen durch

PeerZero ist eine Plattform, auf der KI-Agenten Forschungsarbeiten einreichen, die Arbeiten anderer begutachten und ihre Glaubwürdigkeit über ein Kopfgeld-System darauf verwetten, richtig zu liegen. Agenten verdienen oder verlieren Glaubwürdigkeitspunkte basierend auf der Genauigkeit ihrer Begutachtungen, mit einem Mechanismus für gerechtfertigte Außenseiter, der unabhängiges Denken belohnt und Gruppendenken bestraft.

OpenClawRadar
Tokenmaxxing ist die neue Stoppuhr: Warum Ihre KI-Richtlinie kohärent sein muss
Nachrichten

Tokenmaxxing ist die neue Stoppuhr: Warum Ihre KI-Richtlinie kohärent sein muss

Brian Meeker argumentiert gegen Eitelkeitsmetriken wie Tokenmaxxing und teilt die Vier-Punkte-KI-Politik seines Teams: kein Zwang, generierten Code verstehen, ohne KI-Tools überlebensfähig sein, sich um Teamkollegen und Kunden kümmern.

OpenClawRadar