Le modèle Qwen3-0.6B affiné surpasse l'enseignant de 120B sur l'appel de fonction structuré.

✍️ OpenClawRadar📅 Publié: March 9, 2026🔗 Source
Le modèle Qwen3-0.6B affiné surpasse l'enseignant de 120B sur l'appel de fonction structuré.
Ad

Ce que c'est

Distil Labs a publié un pipeline complet qui affine un petit modèle Qwen3 de 0,6 milliard de paramètres pour surpasser un modèle enseignant de 120 milliards de paramètres sur des tâches d'appel de fonctions structurées. Le pipeline extrait des traces de production, génère des données d'entraînement synthétiques et entraîne un modèle spécialisé 200 fois plus petit que l'enseignant.

Résultats de performance

  • Enseignant (GPT-OSS-120B) : 50,0 % d'équivalence d'appel d'outil
  • Qwen3-0.6B de base (sans affinage) : 10,3 % d'équivalence d'appel d'outil
  • Qwen3-0.6B affiné : 79,5 % d'équivalence d'appel d'outil

La tâche est l'appel de fonctions pour la domotique IoT : router des commandes en langage naturel comme "allume les lumières de la cuisine" ou "prépare-moi un café à 7h" vers la fonction correcte avec les bons paramètres. Le score est basé sur une correspondance structurée exacte, pas sur un score approximatif.

Pourquoi le petit modèle gagne

L'enseignant de 120B est un modèle polyvalent qui n'a jamais vu ces schémas de fonctions spécifiques ou ces modèles de formulation utilisateur. Il produit souvent des réponses verbeuses ou légèrement mal formatées. L'étudiant de 0,6B est un spécialiste entraîné exclusivement sur cette tâche, donc il maîtrise constamment le format de sortie exact.

Ad

Architecture du pipeline

Le pipeline en trois étapes :

  1. Extraction de données : dlt extrait des traces de production depuis des bases de données, des API, du stockage cloud ou des agrégateurs de logs et les écrit sur Hugging Face sous forme de jeux de données Parquet propres
  2. Curatation automatique : Un juge LLM note et filtre les traces pour sélectionner des exemples de départ de haute qualité (aucune annotation manuelle requise)
  3. Génération de données synthétiques et entraînement : Distil Labs utilise les traces comme contexte de domaine, génère environ 10 000 exemples d'entraînement synthétiques avec un grand enseignant, les valide et les filtre, puis affine le modèle étudiant

L'idée clé : au lieu d'entraîner directement sur des traces brutes, elles sont utilisées comme contexte pour que le générateur de données synthétiques produise des exemples correspondant au vocabulaire réel, aux schémas de fonctions et aux modèles de formulation des utilisateurs réels.

Jeu de données et détails pratiques

  • Utilisation du jeu de données Amazon MASSIVE (16k+ énoncés, 60 intentions) comme substitut du trafic de production
  • Filtré pour le scénario IoT avec 9 fonctions de domotique
  • Environ 75 exemples de départ étiquetés étaient suffisants (curatation automatique, zéro annotation manuelle)
  • Entraînement terminé en moins de 12 heures
  • Inférence du modèle : moins de 50 ms localement contre 400-700 ms pour les appels d'API cloud
  • Modèle disponible aux formats safetensors et GGUF sur Hugging Face

Considérations pour la production

Le modèle obtient 79,5 % de correspondance exacte, ce qui signifie qu'environ 1 requête sur 5 peut nécessiter une solution de repli. Pour une utilisation en production, vous voudriez un seuil de confiance routant les prédictions à faible confiance vers un modèle plus grand.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Création d'un Guide de Style Rédactionnel Auto-Mise à Jour pour un Contenu Assisté par l'IA
Tools

Création d'un Guide de Style Rédactionnel Auto-Mise à Jour pour un Contenu Assisté par l'IA

Une équipe développant une plateforme d'extraction vocale appelée Noren a créé un guide de style Markdown de 117 lignes qui se réécrit après chaque publication, utilisant Claude pour faire respecter les règles et bannir les mots typiques de l'IA comme 'cadence' et 'optimize'.

OpenClawRadar
Les tests de référence MemAware évaluent la mémoire de l'IA au-delà de la simple recherche par mots-clés.
Tools

Les tests de référence MemAware évaluent la mémoire de l'IA au-delà de la simple recherche par mots-clés.

MemAware est un benchmark avec 900 questions réparties sur 3 niveaux de difficulté qui teste si les assistants IA dotés de mémoire peuvent faire remonter un contexte pertinent lorsque les requêtes ne le suggèrent pas. Les résultats montrent que la recherche BM25 a obtenu 2,8 % contre 0,8 % sans mémoire, tandis que la recherche vectorielle chute à 0,7 % sur les connexions inter-domaines.

OpenClawRadar
MetaBot : Un pont open source connecte le code Claude à Telegram, Feishu et WeChat
Tools

MetaBot : Un pont open source connecte le code Claude à Telegram, Feishu et WeChat

MetaBot est un pont TypeScript open-source qui connecte le SDK de l'agent Claude Code à des plateformes de messagerie comme Telegram, Feishu et WeChat. Il offre une mémoire persistante, des tâches planifiées, une collaboration multi-agents et un streaming en temps réel des appels d'outils.

OpenClawRadar
Encre : Une plateforme de déploiement où les agents IA Claude sont les utilisateurs principaux
Tools

Encre : Une plateforme de déploiement où les agents IA Claude sont les utilisateurs principaux

Ink (ml.ink) est une plateforme de déploiement conçue pour les agents d'IA comme Claude, offrant un déploiement par simple appel d'outil, une détection automatique des frameworks, et des services intégrés incluant le calcul, les bases de données, le DNS, les secrets, les domaines, les métriques et les journaux.

OpenClawRadar