Qwen3 Small 0.6B-8B Surpasse GPT-5 sur 6/9 Tâches à 3$/M Requêtes

Une comparaison systématique des petits modèles Qwen3 distillés avec les modèles API de pointe montre que les petits modèles de langage affinés peuvent surpasser des modèles plus grands et plus coûteux sur des tâches structurées spécifiques.

Résultats de référence

L'étude a comparé les modèles Qwen3 (0,6B à 8B paramètres) avec des API de pointe incluant GPT-5 nano/mini/5.2, Gemini 2.5 Flash Lite/Flash, Claude Haiku 4.5/Sonnet 4.6/Opus 4.6, et Grok 4.1 Fast/Grok 4 sur 9 ensembles de données. Tous les modèles distillés ont été entraînés uniquement avec des enseignants à poids ouvert, avec aussi peu que 50 exemples. L'inférence a été exécutée sur vLLM sur un seul H100.

Principales conclusions de performance

Appel de fonctions pour maison intelligente : Qwen3-0.6B a atteint 98,7 % de précision contre 92,0 % pour Gemini Flash
Text2SQL : Qwen3-4B distillé a obtenu 98,0 % contre 98,7 % pour Claude Haiku et 96,0 % pour GPT-5 nano
Comparaison des coûts : Coût par million de requêtes pour Text2SQL : Qwen3-4B ~3 $ contre 378 $ pour Claude Haiku et 24 $ pour GPT-5 nano
Tâches de classification : Les modèles distillés ont performé à 0–1,5 point de pourcentage près de la meilleure option de pointe sur les ensembles de données Banking77, E-commerce et TREC
Avantage des modèles de pointe : HotpotQA (raisonnement ouvert + connaissances générales) — 92,0 % contre 98,0 % pour Haiku

Métriques de performance

Pour Text2SQL avec Qwen3-4B sur H100 :

222 RPS soutenus
p50 : 390 ms | p95 : 640 ms | p99 : 870 ms
7,6 GiB de VRAM (BF16, sans quantification)
FP8 a donné +15 % de débit, −44 % de VRAM, aucune perte de précision mesurable dans des expériences brèves

Méthodologie

Mêmes ensembles de test, prompts et critères d'évaluation pour tous les modèles
Modèles de pointe exécutés 3× par ensemble de données (moyenne ± écart-type rapportée), modèles distillés à température=0
Évaluation : correspondance exacte pour la classification, équivalence d'appel d'outil (comparaison JSON avec normalisation de paramètres par défaut) pour l'appel de fonctions, Claude Sonnet 4.6 comme juge LLM pour les tâches de génération
Calcul des coûts : modèles de pointe = utilisation de tokens mesurée × tarifs publiés (fév. 2026) ; modèles distillés = H100 à 2,40 $/h ÷ RPS soutenus

Recommandations pratiques

Utilisez les modèles distillés quand : Vous avez des tâches structurées, des schémas bien définis, un volume élevé, ou des besoins de souveraineté des données
Utilisez les API de pointe quand : Vous avez besoin de connaissances générales étendues, de génération libre, ou que le volume est suffisamment faible pour que le coût n'ait pas d'importance
Approche hybride : Aiguillez entre les deux en fonction des exigences de la tâche

Disponibilité

Tout le code, les modèles, les données et les scripts d'évaluation sont open source sur GitHub : https://github.com/distil-labs/inference-efficiency-benchmarks/

Analyse complète avec graphiques disponible sur le blog : https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 Lire la source complète : r/LocalLLaMA

Les modèles Qwen3 Small affinés surpassent les LLMs de pointe sur des tâches spécifiques à moindre coût.

Résultats de référence

Principales conclusions de performance

Métriques de performance

Méthodologie

Recommandations pratiques

Disponibilité

👀 See Also

Les agents d'IA tuent la revue de code — Le problème principal-agent expliqué

Qwen 3 8B surpasse des modèles plus volumineux lors d'évaluations en aveugle par les pairs sur des tâches difficiles.

Titre de l'article traduit : Mises à jour des invites système de Claude Code : Nouveau rappel de modification de fichier et clarifications REPL, rappel d'analyse de malware supprimé

Meta OpenEnv AI Hackathon en Inde offre des entretiens directs et un prix de 30 000 $