Affiner Qwen3-0.6B pour surpasser un modèle 200x plus grand

Ce que c'est

Distil Labs a publié un pipeline complet qui affine un petit modèle Qwen3 de 0,6 milliard de paramètres pour surpasser un modèle enseignant de 120 milliards de paramètres sur des tâches d'appel de fonctions structurées. Le pipeline extrait des traces de production, génère des données d'entraînement synthétiques et entraîne un modèle spécialisé 200 fois plus petit que l'enseignant.

Résultats de performance

Enseignant (GPT-OSS-120B) : 50,0 % d'équivalence d'appel d'outil
Qwen3-0.6B de base (sans affinage) : 10,3 % d'équivalence d'appel d'outil
Qwen3-0.6B affiné : 79,5 % d'équivalence d'appel d'outil

La tâche est l'appel de fonctions pour la domotique IoT : router des commandes en langage naturel comme "allume les lumières de la cuisine" ou "prépare-moi un café à 7h" vers la fonction correcte avec les bons paramètres. Le score est basé sur une correspondance structurée exacte, pas sur un score approximatif.

Pourquoi le petit modèle gagne

L'enseignant de 120B est un modèle polyvalent qui n'a jamais vu ces schémas de fonctions spécifiques ou ces modèles de formulation utilisateur. Il produit souvent des réponses verbeuses ou légèrement mal formatées. L'étudiant de 0,6B est un spécialiste entraîné exclusivement sur cette tâche, donc il maîtrise constamment le format de sortie exact.

Architecture du pipeline

Le pipeline en trois étapes :

Extraction de données : dlt extrait des traces de production depuis des bases de données, des API, du stockage cloud ou des agrégateurs de logs et les écrit sur Hugging Face sous forme de jeux de données Parquet propres
Curatation automatique : Un juge LLM note et filtre les traces pour sélectionner des exemples de départ de haute qualité (aucune annotation manuelle requise)
Génération de données synthétiques et entraînement : Distil Labs utilise les traces comme contexte de domaine, génère environ 10 000 exemples d'entraînement synthétiques avec un grand enseignant, les valide et les filtre, puis affine le modèle étudiant

L'idée clé : au lieu d'entraîner directement sur des traces brutes, elles sont utilisées comme contexte pour que le générateur de données synthétiques produise des exemples correspondant au vocabulaire réel, aux schémas de fonctions et aux modèles de formulation des utilisateurs réels.

Jeu de données et détails pratiques

Utilisation du jeu de données Amazon MASSIVE (16k+ énoncés, 60 intentions) comme substitut du trafic de production
Filtré pour le scénario IoT avec 9 fonctions de domotique
Environ 75 exemples de départ étiquetés étaient suffisants (curatation automatique, zéro annotation manuelle)
Entraînement terminé en moins de 12 heures
Inférence du modèle : moins de 50 ms localement contre 400-700 ms pour les appels d'API cloud
Modèle disponible aux formats safetensors et GGUF sur Hugging Face

Considérations pour la production

Le modèle obtient 79,5 % de correspondance exacte, ce qui signifie qu'environ 1 requête sur 5 peut nécessiter une solution de repli. Pour une utilisation en production, vous voudriez un seuil de confiance routant les prédictions à faible confiance vers un modèle plus grand.

📖 Lire la source complète : r/LocalLLaMA

Le modèle Qwen3-0.6B affiné surpasse l'enseignant de 120B sur l'appel de fonction structuré.

Ce que c'est

Résultats de performance

Pourquoi le petit modèle gagne

Architecture du pipeline

Jeu de données et détails pratiques

Considérations pour la production

👀 See Also

FlowBoard v5 : Espace de travail de projet basé sur les événements pour équipes multi-agents

Claude Code à l'échelle : Comment la recherche agentique évite les modes de défaillance du RAG dans les grandes bases de code

Application macOS gratuite de la barre de menus affiche les statistiques d'utilisation Claude en temps réel via le décryptage de cookies SQLite

Cinq plugins OpenClaw qui traitent des problèmes de production essentiels