Les tests comparatifs montrent que les modèles distillés égalent les LLM de pointe sur les tâches structurées, pour un coût 10 fois inférieur.

Résultats de référence : Modèles distillés vs modèles de pointe
Les chercheurs ont mené une comparaison exhaustive des petits modèles distillés face aux LLM de pointe sur 9 ensembles de données couvrant des tâches de classification, d'appel de fonction, de Q/R et de Q/R en livre ouvert. Tous les modèles distillés proviennent de la famille Qwen3 (0,6B à 8B), entraînés avec seulement 50 exemples en utilisant des modèles enseignants à poids ouverts, sans recours aux sorties d'API de pointe pour l'entraînement.
Principaux résultats de performance
- Les modèles distillés égalent ou surpassent le meilleur modèle de pointe de niveau intermédiaire (<1 $/MTok d'entrée) sur 6 tâches sur 9, et sont pratiquement à égalité sur une 7e
- Text2SQL : Qwen3-4B distillé atteint 98,0 % contre 98,7 % pour Claude Haiku, 96,0 % pour GPT-5 nano, à 3 $/M de requêtes contre respectivement 378 $ et 24 $
- Maison intelligente (appel de fonction) : Qwen3-0,6B obtient 98,7 % contre 92,0 % pour Gemini Flash
- HotpotQA : Les modèles distillés obtiennent 92,0 % contre 98,0 % pour Haiku – le raisonnement ouvert avec connaissance du monde reste le territoire des modèles de pointe
- Tâches de classification (Banking77, E-commerce, TREC) : Les modèles distillés sont à 0-1,5 point de pourcentage du meilleur modèle de pointe
Performance d'inférence
Les modèles ont été servis via vLLM sur un seul H100 avec les performances suivantes pour le modèle Text2SQL 4B :
- 222 RPS soutenus
- p50 : 390 ms, p95 : 640 ms, p99 : 870 ms
- 7,6 GiB de VRAM (BF16, sans quantification)
- FP8 a donné +15 % de débit, -44 % de mémoire, sans perte de précision dans des expériences brèves
Méthodologie
- Mêmes ensembles de test, mêmes prompts, mêmes critères d'évaluation pour tous les modèles
- Modèles de pointe exécutés 3 fois par ensemble de données (moyenne ± écart-type rapportée), modèles distillés à temp=0
- Évaluation : correspondance exacte pour la classification, équivalence d'appel d'outil (comparaison JSON avec normalisation des paramètres par défaut) pour l'appel de fonction, Claude Sonnet 4.6 comme LLM-en-tant-que-juge pour la génération
- Coût : pointe = utilisation mesurée de tokens d'API × tarification publiée (fév. 2026). Distillé = H100 à 2,40 $/h ÷ RPS soutenu mesuré
Recommandations pratiques
- Distiller : tâches structurées, schémas bien définis, volume élevé, exigences de souveraineté des données
- API de pointe : connaissance générale du monde, génération libre, faible volume
- Meilleure configuration : router entre les deux
Ressources disponibles
Tout le code, les modèles, les données et les scripts d'évaluation sont open source sur https://github.com/distil-labs/inference-efficiency-benchmarks/
Article de blog complet avec graphiques et analyses par ensemble de données : https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Anam Cara-3 : Avancées dans les avatars IA interactifs
Anam Cara-3 introduit des avatars interactifs avancés avec un pipeline en deux étapes pour la conversion audio-vidéo, atteignant une vitesse et une réactivité impressionnantes.

Le Hub IA de SwitchBot s'apprête à intégrer OpenClaw pour une automatisation améliorée de la maison intelligente.
L'AI Hub de SwitchBot est sur le point de bénéficier d'une mise à niveau significative avec l'intégration d'OpenClaw. Cette initiative promet des capacités d'automatisation améliorées et une gestion plus intelligente de la maison.

Le code source de l'interface CLI de Claude divulgué révèle des fonctionnalités cachées et des drapeaux internes.
L'analyse du code source TypeScript divulgué de Claude Code CLI révèle 35 drapeaux de fonctionnalités au moment de la compilation, notamment les animaux de compagnie IA BUDDY, la mémoire persistante KAIROS, la planification à distance ULTRAPLAN et le mode Coordinateur. Également découverts : plus de 120 variables d'environnement non documentées et 26 commandes internes en slash.

Bêta publique de sécurité Claude : analyse le code, valide ses propres découvertes, propose des correctifs
Anthropic a lancé Claude Security en version bêta publique pour les clients Enterprise. Il raisonne à travers le code comme un chercheur en sécurité, remet en question ses propres conclusions via une auto-vérification adversarial, et propose des correctifs concrets.