Das feinabgestimmte Qwen3-0.6B-Modell übertrifft den 120B-Lehrer bei strukturierten Funktionsaufrufen.

✍️ OpenClawRadar📅 Veröffentlicht: 9. März 2026🔗 Source
Das feinabgestimmte Qwen3-0.6B-Modell übertrifft den 120B-Lehrer bei strukturierten Funktionsaufrufen.
Ad

Was das ist

Distil Labs hat eine komplette Pipeline veröffentlicht, die ein kleines Qwen3-Modell mit 0,6B Parametern feinabstimmt, um ein Lehrermodell mit 120B Parametern bei strukturierten Funktionsaufrufen zu übertreffen. Die Pipeline extrahiert Produktionsspuren, generiert synthetische Trainingsdaten und trainiert ein Spezialmodell, das 200-mal kleiner ist als das Lehrermodell.

Leistungsergebnisse

  • Lehrermodell (GPT-OSS-120B): 50,0 % Tool-Call-Äquivalenz
  • Basis Qwen3-0.6B (ohne Feinabstimmung): 10,3 % Tool-Call-Äquivalenz
  • Feinabgestimmtes Qwen3-0.6B: 79,5 % Tool-Call-Äquivalenz

Die Aufgabe ist IoT-Smart-Home-Funktionsaufrufe: Natürlichsprachbefehle wie "schalte die Küchenbeleuchtung ein" oder "mache mir um 7 Uhr morgens einen Kaffee" an die richtige Funktion mit den korrekten Parametern weiterleiten. Die Bewertung basiert auf exakter strukturierter Übereinstimmung, nicht auf unscharfer Bewertung.

Warum das kleine Modell gewinnt

Das 120B-Lehrermodell ist ein allgemeines Modell, das diese spezifischen Funktionsschemata oder Benutzerformulierungsmuster nie gesehen hat. Es erzeugt oft ausführliche oder leicht abweichende Antworten. Das 0,6B-Schülermodell ist ein Spezialist, der ausschließlich für diese Aufgabe trainiert wurde, daher trifft es das exakte Ausgabeformat konsistent.

Ad

Pipeline-Architektur

Die dreistufige Pipeline:

  1. Datenextraktion: dlt extrahiert Produktionsspuren aus Datenbanken, APIs, Cloud-Speichern oder Log-Aggregatoren und schreibt sie als saubere Parquet-Datensätze in Hugging Face
  2. Automatische Kuratierung: Ein LLM-Richter bewertet und filtert Spuren, um hochwertige Beispiele auszuwählen (keine manuelle Annotation erforderlich)
  3. Synthetische Datengenerierung und Training: Distil Labs verwendet die Spuren als Domänenkontext, generiert ~10.000 synthetische Trainingsbeispiele mit einem großen Lehrermodell, validiert und filtert sie und stimmt dann das Schülermodell fein ab

Die zentrale Erkenntnis: Anstatt direkt auf Rohspuren zu trainieren, werden sie als Kontext verwendet, damit der synthetische Datengenerator Beispiele erzeugt, die dem echten Vokabular, den Funktionsschemata und Formulierungsmustern echter Benutzer entsprechen.

Datensatz und praktische Details

  • Verwendete den Amazon MASSIVE-Datensatz (16k+ Äußerungen, 60 Intents) als Ersatz für Produktionsverkehr
  • Gefiltert auf IoT-Szenario mit 9 Smart-Home-Funktionen
  • ~75 gelabelte Beispiele reichten aus (automatische Kuratierung, null manuelle Annotation)
  • Training in unter 12 Stunden abgeschlossen
  • Modellinferenz: unter 50 ms lokal vs. 400-700 ms für Cloud-API-Aufrufe
  • Modell verfügbar in safetensors und GGUF-Formaten auf Hugging Face

Produktionsüberlegungen

Das Modell erreicht 79,5 % exakte Übereinstimmung, was bedeutet, dass etwa jede fünfte Abfrage einen Fallback benötigen könnte. Für den Produktionseinsatz wäre ein Konfidenzschwellenwert ratsam, der Vorhersagen mit geringer Konfidenz an ein größeres Modell weiterleitet.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Open-Source-System für ein zweites Gehirn, basierend auf Claude Code, für Aufgabenmanagement
Werkzeuge

Open-Source-System für ein zweites Gehirn, basierend auf Claude Code, für Aufgabenmanagement

Ein Open-Source-System namens Kipi System nutzt Claude Code, um offene Threads zu verfolgen, Nachverfolgungen zu entwerfen und Aufgaben zu verwalten, indem es Daten aus Kalender, E-Mail, CRM und Social-Feeds abruft. Es erzeugt eine tägliche HTML-Datei mit vorgefertigten Aktionen, sortiert nach Aufwand.

OpenClawRadar
Godmode-Plugin fügt autonome Iterationsschleife zu Claude Code und anderen KI-Codierungsagenten hinzu
Werkzeuge

Godmode-Plugin fügt autonome Iterationsschleife zu Claude Code und anderen KI-Codierungsagenten hinzu

Godmode ist ein Open-Source-Plugin, das Claude Code eine autonome Messen-Modifizieren-Verifizieren-Schleife hinzufügt, mit parallelen Agenten, Fehlerspeicher und 126 Fähigkeiten wie Optimierung, Sicherheitsaudits und TDD. Es funktioniert mit Cursor, Codex, Gemini CLI und OpenCode.

OpenClawRadar
CodeVibe: Push-Benachrichtigungen für KI-Codierungsagenten bei blockierter Eingabe
Werkzeuge

CodeVibe: Push-Benachrichtigungen für KI-Codierungsagenten bei blockierter Eingabe

CodeVibe sendet Push-Benachrichtigungen auf Ihr Telefon, wenn KI-Coding-Agenten wie Claude Code bei der Genehmigung von Bearbeitungsvorgängen feststecken. Sie können Dateiunterschiede prüfen und mit nummerierten Optionen antworten, um den Agenten in Bewegung zu halten.

OpenClawRadar
Qwen 3.5 35B läuft mit 8 GB VRAM und llama.cpp-Konfiguration
Werkzeuge

Qwen 3.5 35B läuft mit 8 GB VRAM und llama.cpp-Konfiguration

Ein Entwickler teilt seine llama.cpp-Konfiguration für den Betrieb von Qwen 3.5 35B (Q4_K_M GGUF) auf einer RTX 4060m mit 8 GB VRAM, erreicht 700 t/s bei der Prompt-Verarbeitung und 42 t/s bei der Generierung und diskutiert die Verwendung von Cline in VSCode mit kat-coder-pro- und qwen3.5-Modi.

OpenClawRadar