Qwen3 Distillé 8B : 98% Précision Text2SQL à 3$/M Requêtes

Résultats de référence : Modèles distillés vs modèles de pointe

Les chercheurs ont mené une comparaison exhaustive des petits modèles distillés face aux LLM de pointe sur 9 ensembles de données couvrant des tâches de classification, d'appel de fonction, de Q/R et de Q/R en livre ouvert. Tous les modèles distillés proviennent de la famille Qwen3 (0,6B à 8B), entraînés avec seulement 50 exemples en utilisant des modèles enseignants à poids ouverts, sans recours aux sorties d'API de pointe pour l'entraînement.

Principaux résultats de performance

Les modèles distillés égalent ou surpassent le meilleur modèle de pointe de niveau intermédiaire (<1 $/MTok d'entrée) sur 6 tâches sur 9, et sont pratiquement à égalité sur une 7e
Text2SQL : Qwen3-4B distillé atteint 98,0 % contre 98,7 % pour Claude Haiku, 96,0 % pour GPT-5 nano, à 3 $/M de requêtes contre respectivement 378 $ et 24 $
Maison intelligente (appel de fonction) : Qwen3-0,6B obtient 98,7 % contre 92,0 % pour Gemini Flash
HotpotQA : Les modèles distillés obtiennent 92,0 % contre 98,0 % pour Haiku – le raisonnement ouvert avec connaissance du monde reste le territoire des modèles de pointe
Tâches de classification (Banking77, E-commerce, TREC) : Les modèles distillés sont à 0-1,5 point de pourcentage du meilleur modèle de pointe

Performance d'inférence

Les modèles ont été servis via vLLM sur un seul H100 avec les performances suivantes pour le modèle Text2SQL 4B :

222 RPS soutenus
p50 : 390 ms, p95 : 640 ms, p99 : 870 ms
7,6 GiB de VRAM (BF16, sans quantification)
FP8 a donné +15 % de débit, -44 % de mémoire, sans perte de précision dans des expériences brèves

Méthodologie

Mêmes ensembles de test, mêmes prompts, mêmes critères d'évaluation pour tous les modèles
Modèles de pointe exécutés 3 fois par ensemble de données (moyenne ± écart-type rapportée), modèles distillés à temp=0
Évaluation : correspondance exacte pour la classification, équivalence d'appel d'outil (comparaison JSON avec normalisation des paramètres par défaut) pour l'appel de fonction, Claude Sonnet 4.6 comme LLM-en-tant-que-juge pour la génération
Coût : pointe = utilisation mesurée de tokens d'API × tarification publiée (fév. 2026). Distillé = H100 à 2,40 $/h ÷ RPS soutenu mesuré

Recommandations pratiques

Distiller : tâches structurées, schémas bien définis, volume élevé, exigences de souveraineté des données
API de pointe : connaissance générale du monde, génération libre, faible volume
Meilleure configuration : router entre les deux

Ressources disponibles

Tout le code, les modèles, les données et les scripts d'évaluation sont open source sur https://github.com/distil-labs/inference-efficiency-benchmarks/

Article de blog complet avec graphiques et analyses par ensemble de données : https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 Lire la source complète : r/LocalLLaMA

Les tests comparatifs montrent que les modèles distillés égalent les LLM de pointe sur les tâches structurées, pour un coût 10 fois inférieur.

Résultats de référence : Modèles distillés vs modèles de pointe

Principaux résultats de performance

Performance d'inférence

Méthodologie

Recommandations pratiques

Ressources disponibles

👀 See Also

Résultats de référence en raisonnement visuel pour 15 modèles d'IA multimodaux

L'armée américaine a utilisé l'IA Claude pour les frappes en Iran malgré l'interdiction de Trump

Codage Vibe vs Ingénierie Agentique : Les Lignes Floues Deviennent Inconfortables

L'IA ralentit : 3 000 milliards de dollars de revenus nécessaires d'ici 2030 pour maintenir la bulle