Qwen 3 8B bat des modèles 4x plus gros en évaluation aveugle

Résultats de l'évaluation

Un système d'évaluation en aveugle par les pairs appelé The Multivac a testé 10 petits modèles de langage sur 13 questions difficiles de niveau frontière. Le même niveau de difficulté a été utilisé pour GPT-5.4 et Claude Opus 4.6. Les modèles ne savaient pas quelle réponse provenait de quel modèle, et les classements ont été calculés à partir du consensus des pairs.

Principales conclusions

Qwen 3 8B (8 milliards de paramètres) a obtenu :

6 victoires en première place sur 13 évaluations
Des classements dans le top 3 dans 12 des 13 tâches
Un score moyen de 9,40
Le pire classement : 5e place

Cette performance a dépassé celle de modèles avec des nombres de paramètres significativement plus élevés, notamment :

Gemma 3 27B (27 milliards de paramètres) : 3 victoires, 11 classements dans le top 3, moyenne de 9,33
Kimi K2.5 (32B/1T MoE) : 3 victoires, 5 classements dans le top 3, moyenne de 8,78
Qwen 3 32B (32 milliards de paramètres) : 2 victoires, 5 classements dans le top 3, moyenne de 8,40

Performance par tâche

Sur les tâches de code, Qwen 3 8B s'est classé :

1er sur le débogage de concurrence en Go (9,65)
1er sur l'analyse de verrous distribués (9,33)
Ex æquo 1er sur l'optimisation SQL (9,66)

Sur les tâches de raisonnement, il s'est classé :

1er sur le paradoxe de Simpson (9,51)
1er sur la théorie de la décision d'investissement (9,63)
2e sur le diagnostic bayésien (9,53)

Observations notables

Qwen 3 32B a montré une baisse significative de performance sur la tâche de débogage de verrous distribués (EVAL-20260315-043330), avec un score de seulement 1,00 sur 10 alors que tous les autres modèles ont obtenu plus de 5,5. Le modèle 8B a obtenu 9,33 sur la même tâche. La cause n'est pas claire mais pourrait être liée au routage OpenRouter, à des artefacts de quantification ou à un véritable mode d'échec.

Kimi K2.5, techniquement un modèle 32B actif/1T MoE, a remporté 3 évaluations, y compris la tâche de débogage 502 (9,57), le théorème de vote d'Arrow (9,18) et le biais du survivant (9,63).

Llama 3.1 8B s'est classé dernier ou avant-dernier dans 10 des 13 évaluations avec un score moyen de 7,51, montrant un écart considérable par rapport à Qwen 3 8B (9,40) malgré le même nombre de paramètres.

Notes méthodologiques

L'évaluation a utilisé un système en aveugle par les pairs où 10 modèles répondent à la même question, puis chaque modèle juge les 10 réponses (100 jugements totaux par évaluation, moins les auto-jugements). L'auteur note de véritables limites : l'IA jugeant l'IA pose un problème de circularité, et les scores mesurent le consensus des pairs plutôt que la vérité terrain. Une étude de référence humaine est en cours de développement pour mesurer la corrélation.

📖 Read the full source: r/LocalLLaMA

Qwen 3 8B surpasse des modèles plus volumineux lors d'évaluations en aveugle par les pairs sur des tâches difficiles.

Résultats de l'évaluation

Principales conclusions

Performance par tâche

Observations notables

Notes méthodologiques

👀 See Also

WSJ : Les PDG face à un choix crucial en matière d'IA – licenciements ou surcharge de travail

Panne partielle signalée de Claude Code sur le Web

Google Chrome installe silencieusement le modèle IA Gemini Nano de 4 Go – sans consentement de l'utilisateur

Systèmes multi-agents : Ingénierie des flux de travail vs Intelligence émergente