Das feinabgestimmte Qwen3-0.6B-Modell übertrifft den 120B-Lehrer bei strukturierten Funktionsaufrufen.

✍️ OpenClawRadar📅 Veröffentlicht: 9. März 2026🔗 Source
Das feinabgestimmte Qwen3-0.6B-Modell übertrifft den 120B-Lehrer bei strukturierten Funktionsaufrufen.
Ad

Was das ist

Distil Labs hat eine komplette Pipeline veröffentlicht, die ein kleines Qwen3-Modell mit 0,6B Parametern feinabstimmt, um ein Lehrermodell mit 120B Parametern bei strukturierten Funktionsaufrufen zu übertreffen. Die Pipeline extrahiert Produktionsspuren, generiert synthetische Trainingsdaten und trainiert ein Spezialmodell, das 200-mal kleiner ist als das Lehrermodell.

Leistungsergebnisse

  • Lehrermodell (GPT-OSS-120B): 50,0 % Tool-Call-Äquivalenz
  • Basis Qwen3-0.6B (ohne Feinabstimmung): 10,3 % Tool-Call-Äquivalenz
  • Feinabgestimmtes Qwen3-0.6B: 79,5 % Tool-Call-Äquivalenz

Die Aufgabe ist IoT-Smart-Home-Funktionsaufrufe: Natürlichsprachbefehle wie "schalte die Küchenbeleuchtung ein" oder "mache mir um 7 Uhr morgens einen Kaffee" an die richtige Funktion mit den korrekten Parametern weiterleiten. Die Bewertung basiert auf exakter strukturierter Übereinstimmung, nicht auf unscharfer Bewertung.

Warum das kleine Modell gewinnt

Das 120B-Lehrermodell ist ein allgemeines Modell, das diese spezifischen Funktionsschemata oder Benutzerformulierungsmuster nie gesehen hat. Es erzeugt oft ausführliche oder leicht abweichende Antworten. Das 0,6B-Schülermodell ist ein Spezialist, der ausschließlich für diese Aufgabe trainiert wurde, daher trifft es das exakte Ausgabeformat konsistent.

Ad

Pipeline-Architektur

Die dreistufige Pipeline:

  1. Datenextraktion: dlt extrahiert Produktionsspuren aus Datenbanken, APIs, Cloud-Speichern oder Log-Aggregatoren und schreibt sie als saubere Parquet-Datensätze in Hugging Face
  2. Automatische Kuratierung: Ein LLM-Richter bewertet und filtert Spuren, um hochwertige Beispiele auszuwählen (keine manuelle Annotation erforderlich)
  3. Synthetische Datengenerierung und Training: Distil Labs verwendet die Spuren als Domänenkontext, generiert ~10.000 synthetische Trainingsbeispiele mit einem großen Lehrermodell, validiert und filtert sie und stimmt dann das Schülermodell fein ab

Die zentrale Erkenntnis: Anstatt direkt auf Rohspuren zu trainieren, werden sie als Kontext verwendet, damit der synthetische Datengenerator Beispiele erzeugt, die dem echten Vokabular, den Funktionsschemata und Formulierungsmustern echter Benutzer entsprechen.

Datensatz und praktische Details

  • Verwendete den Amazon MASSIVE-Datensatz (16k+ Äußerungen, 60 Intents) als Ersatz für Produktionsverkehr
  • Gefiltert auf IoT-Szenario mit 9 Smart-Home-Funktionen
  • ~75 gelabelte Beispiele reichten aus (automatische Kuratierung, null manuelle Annotation)
  • Training in unter 12 Stunden abgeschlossen
  • Modellinferenz: unter 50 ms lokal vs. 400-700 ms für Cloud-API-Aufrufe
  • Modell verfügbar in safetensors und GGUF-Formaten auf Hugging Face

Produktionsüberlegungen

Das Modell erreicht 79,5 % exakte Übereinstimmung, was bedeutet, dass etwa jede fünfte Abfrage einen Fallback benötigen könnte. Für den Produktionseinsatz wäre ein Konfidenzschwellenwert ratsam, der Vorhersagen mit geringer Konfidenz an ein größeres Modell weiterleitet.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Claude-Code-Plugin für Reddit-Marktforschung ohne API-Schlüssel
Werkzeuge

Claude-Code-Plugin für Reddit-Marktforschung ohne API-Schlüssel

Ein Claude Code-Plugin automatisiert die Reddit-Marktforschung, indem es Threads durchsucht, Inhalte analysiert und Markdown-Berichte mit direkten Links erstellt. Es benötigt keinen Reddit-API-Schlüssel, Authentifizierung oder Konfigurationsdateien und nutzt öffentliche Daten über einen lokalen MCP-Server.

OpenClawRadar
ClawCloud Managed Service vereinfacht die OpenClaw-Bereitstellung für Slack-Teams
Werkzeuge

ClawCloud Managed Service vereinfacht die OpenClaw-Bereitstellung für Slack-Teams

ClawCloud bietet einen verwalteten Bereitstellungsdienst für OpenClaw, der sich mit Slack-Arbeitsbereichen verbindet, die Infrastruktur verwaltet und die Antwortlatenz auf unter 2 Sekunden reduziert. Ein Benutzer berichtete von einer Einrichtungszeit von 20 Minuten im Vergleich zu 3 Tagen für das Selbsthosting, mit Kosten von etwa 30 US-Dollar pro Monat für ein 40-köpfiges Team.

OpenClawRadar
Freddy MCP Server verbindet Wearables mit KI-Agenten durch kopfloses Anmelden
Werkzeuge

Freddy MCP Server verbindet Wearables mit KI-Agenten durch kopfloses Anmelden

Freddy ist ein persönlicher MCP-Server, der Wearables (Polar, Oura, Withings, Suunto, Intervals.icu, Hevy, plus WHOOP, Strava, Dexcom in der Beta) über OAuth mit KI-Clients wie Claude Code, ChatGPT und Notion AI verbindet. Das neue Headless-Sign-In ermöglicht geplante Workflows für autonome Agenten.

OpenClawRadar
OpenClaw Plugin für AxonFlow: Vorab-Genehmigung von Tools & PII-Schwärzung
Werkzeuge

OpenClaw Plugin für AxonFlow: Vorab-Genehmigung von Tools & PII-Schwärzung

Ein selbst gehostetes OpenClaw-Plugin, das Tool-Argumente vor der Ausführung prüft, riskante Aufrufe für menschliche Freigabe pausiert und PII aus ausgehenden Nachrichten entfernt. Nutzt OpenClaw-Lifecycle-Hooks – keine Code-Änderungen am Agenten nötig.

OpenClawRadar