Qwen3-0.6B übertrifft 120B-Lehrer: 79,5% Genauigkeit bei Funktionsaufrufen

Was das ist

Distil Labs hat eine komplette Pipeline veröffentlicht, die ein kleines Qwen3-Modell mit 0,6B Parametern feinabstimmt, um ein Lehrermodell mit 120B Parametern bei strukturierten Funktionsaufrufen zu übertreffen. Die Pipeline extrahiert Produktionsspuren, generiert synthetische Trainingsdaten und trainiert ein Spezialmodell, das 200-mal kleiner ist als das Lehrermodell.

Leistungsergebnisse

Lehrermodell (GPT-OSS-120B): 50,0 % Tool-Call-Äquivalenz
Basis Qwen3-0.6B (ohne Feinabstimmung): 10,3 % Tool-Call-Äquivalenz
Feinabgestimmtes Qwen3-0.6B: 79,5 % Tool-Call-Äquivalenz

Die Aufgabe ist IoT-Smart-Home-Funktionsaufrufe: Natürlichsprachbefehle wie "schalte die Küchenbeleuchtung ein" oder "mache mir um 7 Uhr morgens einen Kaffee" an die richtige Funktion mit den korrekten Parametern weiterleiten. Die Bewertung basiert auf exakter strukturierter Übereinstimmung, nicht auf unscharfer Bewertung.

Warum das kleine Modell gewinnt

Das 120B-Lehrermodell ist ein allgemeines Modell, das diese spezifischen Funktionsschemata oder Benutzerformulierungsmuster nie gesehen hat. Es erzeugt oft ausführliche oder leicht abweichende Antworten. Das 0,6B-Schülermodell ist ein Spezialist, der ausschließlich für diese Aufgabe trainiert wurde, daher trifft es das exakte Ausgabeformat konsistent.

Pipeline-Architektur

Die dreistufige Pipeline:

Datenextraktion: dlt extrahiert Produktionsspuren aus Datenbanken, APIs, Cloud-Speichern oder Log-Aggregatoren und schreibt sie als saubere Parquet-Datensätze in Hugging Face
Automatische Kuratierung: Ein LLM-Richter bewertet und filtert Spuren, um hochwertige Beispiele auszuwählen (keine manuelle Annotation erforderlich)
Synthetische Datengenerierung und Training: Distil Labs verwendet die Spuren als Domänenkontext, generiert ~10.000 synthetische Trainingsbeispiele mit einem großen Lehrermodell, validiert und filtert sie und stimmt dann das Schülermodell fein ab

Die zentrale Erkenntnis: Anstatt direkt auf Rohspuren zu trainieren, werden sie als Kontext verwendet, damit der synthetische Datengenerator Beispiele erzeugt, die dem echten Vokabular, den Funktionsschemata und Formulierungsmustern echter Benutzer entsprechen.

Datensatz und praktische Details

Verwendete den Amazon MASSIVE-Datensatz (16k+ Äußerungen, 60 Intents) als Ersatz für Produktionsverkehr
Gefiltert auf IoT-Szenario mit 9 Smart-Home-Funktionen
~75 gelabelte Beispiele reichten aus (automatische Kuratierung, null manuelle Annotation)
Training in unter 12 Stunden abgeschlossen
Modellinferenz: unter 50 ms lokal vs. 400-700 ms für Cloud-API-Aufrufe
Modell verfügbar in safetensors und GGUF-Formaten auf Hugging Face

Produktionsüberlegungen

Das Modell erreicht 79,5 % exakte Übereinstimmung, was bedeutet, dass etwa jede fünfte Abfrage einen Fallback benötigen könnte. Für den Produktionseinsatz wäre ein Konfidenzschwellenwert ratsam, der Vorhersagen mit geringer Konfidenz an ein größeres Modell weiterleitet.

📖 Read the full source: r/LocalLLaMA

Das feinabgestimmte Qwen3-0.6B-Modell übertrifft den 120B-Lehrer bei strukturierten Funktionsaufrufen.

Was das ist

Leistungsergebnisse

Warum das kleine Modell gewinnt

Pipeline-Architektur

Datensatz und praktische Details

Produktionsüberlegungen

👀 Siehe auch

Open-Source-System für ein zweites Gehirn, basierend auf Claude Code, für Aufgabenmanagement

Godmode-Plugin fügt autonome Iterationsschleife zu Claude Code und anderen KI-Codierungsagenten hinzu

CodeVibe: Push-Benachrichtigungen für KI-Codierungsagenten bei blockierter Eingabe

Qwen 3.5 35B läuft mit 8 GB VRAM und llama.cpp-Konfiguration