Das feinabgestimmte Qwen3-0.6B-Modell übertrifft den 120B-Lehrer bei strukturierten Funktionsaufrufen.

Was das ist
Distil Labs hat eine komplette Pipeline veröffentlicht, die ein kleines Qwen3-Modell mit 0,6B Parametern feinabstimmt, um ein Lehrermodell mit 120B Parametern bei strukturierten Funktionsaufrufen zu übertreffen. Die Pipeline extrahiert Produktionsspuren, generiert synthetische Trainingsdaten und trainiert ein Spezialmodell, das 200-mal kleiner ist als das Lehrermodell.
Leistungsergebnisse
- Lehrermodell (GPT-OSS-120B): 50,0 % Tool-Call-Äquivalenz
- Basis Qwen3-0.6B (ohne Feinabstimmung): 10,3 % Tool-Call-Äquivalenz
- Feinabgestimmtes Qwen3-0.6B: 79,5 % Tool-Call-Äquivalenz
Die Aufgabe ist IoT-Smart-Home-Funktionsaufrufe: Natürlichsprachbefehle wie "schalte die Küchenbeleuchtung ein" oder "mache mir um 7 Uhr morgens einen Kaffee" an die richtige Funktion mit den korrekten Parametern weiterleiten. Die Bewertung basiert auf exakter strukturierter Übereinstimmung, nicht auf unscharfer Bewertung.
Warum das kleine Modell gewinnt
Das 120B-Lehrermodell ist ein allgemeines Modell, das diese spezifischen Funktionsschemata oder Benutzerformulierungsmuster nie gesehen hat. Es erzeugt oft ausführliche oder leicht abweichende Antworten. Das 0,6B-Schülermodell ist ein Spezialist, der ausschließlich für diese Aufgabe trainiert wurde, daher trifft es das exakte Ausgabeformat konsistent.
Pipeline-Architektur
Die dreistufige Pipeline:
- Datenextraktion: dlt extrahiert Produktionsspuren aus Datenbanken, APIs, Cloud-Speichern oder Log-Aggregatoren und schreibt sie als saubere Parquet-Datensätze in Hugging Face
- Automatische Kuratierung: Ein LLM-Richter bewertet und filtert Spuren, um hochwertige Beispiele auszuwählen (keine manuelle Annotation erforderlich)
- Synthetische Datengenerierung und Training: Distil Labs verwendet die Spuren als Domänenkontext, generiert ~10.000 synthetische Trainingsbeispiele mit einem großen Lehrermodell, validiert und filtert sie und stimmt dann das Schülermodell fein ab
Die zentrale Erkenntnis: Anstatt direkt auf Rohspuren zu trainieren, werden sie als Kontext verwendet, damit der synthetische Datengenerator Beispiele erzeugt, die dem echten Vokabular, den Funktionsschemata und Formulierungsmustern echter Benutzer entsprechen.
Datensatz und praktische Details
- Verwendete den Amazon MASSIVE-Datensatz (16k+ Äußerungen, 60 Intents) als Ersatz für Produktionsverkehr
- Gefiltert auf IoT-Szenario mit 9 Smart-Home-Funktionen
- ~75 gelabelte Beispiele reichten aus (automatische Kuratierung, null manuelle Annotation)
- Training in unter 12 Stunden abgeschlossen
- Modellinferenz: unter 50 ms lokal vs. 400-700 ms für Cloud-API-Aufrufe
- Modell verfügbar in safetensors und GGUF-Formaten auf Hugging Face
Produktionsüberlegungen
Das Modell erreicht 79,5 % exakte Übereinstimmung, was bedeutet, dass etwa jede fünfte Abfrage einen Fallback benötigen könnte. Für den Produktionseinsatz wäre ein Konfidenzschwellenwert ratsam, der Vorhersagen mit geringer Konfidenz an ein größeres Modell weiterleitet.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claude-Code-Plugin für Reddit-Marktforschung ohne API-Schlüssel
Ein Claude Code-Plugin automatisiert die Reddit-Marktforschung, indem es Threads durchsucht, Inhalte analysiert und Markdown-Berichte mit direkten Links erstellt. Es benötigt keinen Reddit-API-Schlüssel, Authentifizierung oder Konfigurationsdateien und nutzt öffentliche Daten über einen lokalen MCP-Server.

ClawCloud Managed Service vereinfacht die OpenClaw-Bereitstellung für Slack-Teams
ClawCloud bietet einen verwalteten Bereitstellungsdienst für OpenClaw, der sich mit Slack-Arbeitsbereichen verbindet, die Infrastruktur verwaltet und die Antwortlatenz auf unter 2 Sekunden reduziert. Ein Benutzer berichtete von einer Einrichtungszeit von 20 Minuten im Vergleich zu 3 Tagen für das Selbsthosting, mit Kosten von etwa 30 US-Dollar pro Monat für ein 40-köpfiges Team.

Freddy MCP Server verbindet Wearables mit KI-Agenten durch kopfloses Anmelden
Freddy ist ein persönlicher MCP-Server, der Wearables (Polar, Oura, Withings, Suunto, Intervals.icu, Hevy, plus WHOOP, Strava, Dexcom in der Beta) über OAuth mit KI-Clients wie Claude Code, ChatGPT und Notion AI verbindet. Das neue Headless-Sign-In ermöglicht geplante Workflows für autonome Agenten.

OpenClaw Plugin für AxonFlow: Vorab-Genehmigung von Tools & PII-Schwärzung
Ein selbst gehostetes OpenClaw-Plugin, das Tool-Argumente vor der Ausführung prüft, riskante Aufrufe für menschliche Freigabe pausiert und PII aus ausgehenden Nachrichten entfernt. Nutzt OpenClaw-Lifecycle-Hooks – keine Code-Änderungen am Agenten nötig.