Les modèles Qwen3 Small affinés surpassent les LLMs de pointe sur des tâches spécifiques à moindre coût.

Une comparaison systématique des petits modèles Qwen3 distillés avec les modèles API de pointe montre que les petits modèles de langage affinés peuvent surpasser des modèles plus grands et plus coûteux sur des tâches structurées spécifiques.
Résultats de référence
L'étude a comparé les modèles Qwen3 (0,6B à 8B paramètres) avec des API de pointe incluant GPT-5 nano/mini/5.2, Gemini 2.5 Flash Lite/Flash, Claude Haiku 4.5/Sonnet 4.6/Opus 4.6, et Grok 4.1 Fast/Grok 4 sur 9 ensembles de données. Tous les modèles distillés ont été entraînés uniquement avec des enseignants à poids ouvert, avec aussi peu que 50 exemples. L'inférence a été exécutée sur vLLM sur un seul H100.
Principales conclusions de performance
- Appel de fonctions pour maison intelligente : Qwen3-0.6B a atteint 98,7 % de précision contre 92,0 % pour Gemini Flash
- Text2SQL : Qwen3-4B distillé a obtenu 98,0 % contre 98,7 % pour Claude Haiku et 96,0 % pour GPT-5 nano
- Comparaison des coûts : Coût par million de requêtes pour Text2SQL : Qwen3-4B ~3 $ contre 378 $ pour Claude Haiku et 24 $ pour GPT-5 nano
- Tâches de classification : Les modèles distillés ont performé à 0–1,5 point de pourcentage près de la meilleure option de pointe sur les ensembles de données Banking77, E-commerce et TREC
- Avantage des modèles de pointe : HotpotQA (raisonnement ouvert + connaissances générales) — 92,0 % contre 98,0 % pour Haiku
Métriques de performance
Pour Text2SQL avec Qwen3-4B sur H100 :
- 222 RPS soutenus
- p50 : 390 ms | p95 : 640 ms | p99 : 870 ms
- 7,6 GiB de VRAM (BF16, sans quantification)
- FP8 a donné +15 % de débit, −44 % de VRAM, aucune perte de précision mesurable dans des expériences brèves
Méthodologie
- Mêmes ensembles de test, prompts et critères d'évaluation pour tous les modèles
- Modèles de pointe exécutés 3× par ensemble de données (moyenne ± écart-type rapportée), modèles distillés à température=0
- Évaluation : correspondance exacte pour la classification, équivalence d'appel d'outil (comparaison JSON avec normalisation de paramètres par défaut) pour l'appel de fonctions, Claude Sonnet 4.6 comme juge LLM pour les tâches de génération
- Calcul des coûts : modèles de pointe = utilisation de tokens mesurée × tarifs publiés (fév. 2026) ; modèles distillés = H100 à 2,40 $/h ÷ RPS soutenus
Recommandations pratiques
- Utilisez les modèles distillés quand : Vous avez des tâches structurées, des schémas bien définis, un volume élevé, ou des besoins de souveraineté des données
- Utilisez les API de pointe quand : Vous avez besoin de connaissances générales étendues, de génération libre, ou que le volume est suffisamment faible pour que le coût n'ait pas d'importance
- Approche hybride : Aiguillez entre les deux en fonction des exigences de la tâche
Disponibilité
Tout le code, les modèles, les données et les scripts d'évaluation sont open source sur GitHub : https://github.com/distil-labs/inference-efficiency-benchmarks/
Analyse complète avec graphiques disponible sur le blog : https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Claude Code v2.1.89 ajoute des crochets différés, une nouvelle tentative de permission et corrige les fuites de mémoire.
Claude Code v2.1.89 introduit une décision d'autorisation 'defer' pour les hooks PreToolUse, ajoute un hook PermissionDenied avec capacité de réessai, et corrige des problèmes critiques incluant des fuites de mémoire avec de grandes entrées JSON et des échecs de cache de schéma StructuredOutput.

Claude Code évolue vers un système d'exploitation d'ingénierie plutôt qu'un simple chat de code IA
Une discussion sur Reddit soutient que Claude Code ressemble de moins en moins à une IA de chat pour le codage et de plus en plus à un système d'exploitation d'ingénierie avec planification, revue de code, agents cloud et workflows autonomes.

Discussion sur Reddit : les assistants IA réactifs critiqués, appel à une véritable proactivité
Un post sur Reddit soutient que les assistants IA actuels sont réactifs par conception, attendant des invites humaines plutôt que d'identifier proactivement les problèmes. L'auteur distingue les vérifications programmées de la véritable conscience contextuelle, notant qu'une proactivité réelle nécessite une mémoire persistante, des déclencheurs événementiels et un raisonnement temporel.

Ce qui manque dans l'histoire "agentique" : un rôle d'agent utilisateur bien défini
Mark Nottingham soutient que les agents d'IA actuels manquent d'un rôle d'agent utilisateur clair, créant un fossé de confiance entre ce que les utilisateurs attendent et ce que les agents font réellement.