Qwen 3 8B surpasse des modèles plus volumineux lors d'évaluations en aveugle par les pairs sur des tâches difficiles.

Résultats de l'évaluation
Un système d'évaluation en aveugle par les pairs appelé The Multivac a testé 10 petits modèles de langage sur 13 questions difficiles de niveau frontière. Le même niveau de difficulté a été utilisé pour GPT-5.4 et Claude Opus 4.6. Les modèles ne savaient pas quelle réponse provenait de quel modèle, et les classements ont été calculés à partir du consensus des pairs.
Principales conclusions
Qwen 3 8B (8 milliards de paramètres) a obtenu :
- 6 victoires en première place sur 13 évaluations
- Des classements dans le top 3 dans 12 des 13 tâches
- Un score moyen de 9,40
- Le pire classement : 5e place
Cette performance a dépassé celle de modèles avec des nombres de paramètres significativement plus élevés, notamment :
- Gemma 3 27B (27 milliards de paramètres) : 3 victoires, 11 classements dans le top 3, moyenne de 9,33
- Kimi K2.5 (32B/1T MoE) : 3 victoires, 5 classements dans le top 3, moyenne de 8,78
- Qwen 3 32B (32 milliards de paramètres) : 2 victoires, 5 classements dans le top 3, moyenne de 8,40
Performance par tâche
Sur les tâches de code, Qwen 3 8B s'est classé :
- 1er sur le débogage de concurrence en Go (9,65)
- 1er sur l'analyse de verrous distribués (9,33)
- Ex æquo 1er sur l'optimisation SQL (9,66)
Sur les tâches de raisonnement, il s'est classé :
- 1er sur le paradoxe de Simpson (9,51)
- 1er sur la théorie de la décision d'investissement (9,63)
- 2e sur le diagnostic bayésien (9,53)
Observations notables
Qwen 3 32B a montré une baisse significative de performance sur la tâche de débogage de verrous distribués (EVAL-20260315-043330), avec un score de seulement 1,00 sur 10 alors que tous les autres modèles ont obtenu plus de 5,5. Le modèle 8B a obtenu 9,33 sur la même tâche. La cause n'est pas claire mais pourrait être liée au routage OpenRouter, à des artefacts de quantification ou à un véritable mode d'échec.
Kimi K2.5, techniquement un modèle 32B actif/1T MoE, a remporté 3 évaluations, y compris la tâche de débogage 502 (9,57), le théorème de vote d'Arrow (9,18) et le biais du survivant (9,63).
Llama 3.1 8B s'est classé dernier ou avant-dernier dans 10 des 13 évaluations avec un score moyen de 7,51, montrant un écart considérable par rapport à Qwen 3 8B (9,40) malgré le même nombre de paramètres.
Notes méthodologiques
L'évaluation a utilisé un système en aveugle par les pairs où 10 modèles répondent à la même question, puis chaque modèle juge les 10 réponses (100 jugements totaux par évaluation, moins les auto-jugements). L'auteur note de véritables limites : l'IA jugeant l'IA pose un problème de circularité, et les scores mesurent le consensus des pairs plutôt que la vérité terrain. Une étude de référence humaine est en cours de développement pour mesurer la corrélation.
📖 Read the full source: r/LocalLLaMA
👀 See Also

La bulle financière cachée dans l'infrastructure de l'IA – Points clés
Une analyse critique de l'essor des dépenses d'infrastructure IA, avertissant d'une bulle non durable similaire aux précédents krachs technologiques. Le PDF soutient que les dépenses d'investissement massives en GPU et centres de données dépassent largement les revenus réels générés.

Lovable offre un accès gratuit de 24 heures avec 350 $ de crédits partenaires pour la Journée internationale des femmes.
Lovable propose un accès gratuit à sa plateforme pendant 24 heures, plus 100 $ de crédits API Claude d'Anthropic et 250 $ de crédits pour les frais de traitement Stripe. L'offre se termine le 9 mars à 00h59.

Claude-Code v2.1.88 en ligne : Rendu sans scintillement, Hooks de permissions et Correctifs critiques
Claude-Code v2.1.88 introduit une option de rendu sans scintillement via CLAUDE_CODE_NO_FLICKER=1, ajoute un crochet PermissionDenied pour les nouvelles tentatives en mode automatique, et corrige les fuites de mémoire, les plantages et les problèmes de rendu sur les terminaux Windows, macOS et Linux.

La Gestion du Contexte d'OpenClaw Critiquée pour sa Consommation de Tokens et ses Défauts Architecturaux
Un post sur Reddit critique OpenClaw pour sa gestion inefficace du contexte qui entraîne une utilisation excessive de tokens. Le framework ajoute toutes les actions à l'historique global, créant des prompts gonflés qui submergent les modèles plus petits et forcent à dépendre de modèles frontaliers coûteux comme Claude Opus.