Gemma 4 vs Qwen 3.5 : Résultats d'Évaluation

Un utilisateur de Reddit a réalisé une évaluation en confrontation directe à trois entre les modèles Gemma 4 31B, Gemma 4 26B-A4B et Qwen 3.5 27B, en utilisant Claude Opus 4.6 comme juge pour l'attribution des scores.

Configuration de l'évaluation

Le test a utilisé 30 questions réparties en cinq catégories : code, raisonnement, analyse, communication et méta-alignement (6 questions par catégorie). Tous les modèles ont répondu aux mêmes questions à l'aveugle, sans différences dans les instructions système et avec les mêmes paramètres de température. Claude Opus 4.6 a évalué chaque réponse indépendamment sur une échelle de 0 à 10 en utilisant une grille structurée, avec un score absolu par réponse plutôt qu'une comparaison par paires. L'évaluation a utilisé un seul juge (Opus 4.6) pour privilégier la cohérence, bien que cela introduise un risque de biais positionnel. Le coût total a été de 4,50 $.

Résultats

Nombre de victoires (score le plus élevé par question) :

Qwen 3.5 27B : 14 victoires (46,7 %)
Gemma 4 31B : 12 victoires (40,0 %)
Gemma 4 26B-A4B : 4 victoires (13,3 %)

Scores moyens :

Gemma 4 31B : 8,82 (30 évaluations)
Gemma 4 26B-A4B : 8,82 (28 évaluations)
Qwen 3.5 27B : 8,17 (30 évaluations)

Qwen a remporté plus de confrontations mais a obtenu un score moyen inférieur en raison de trois scores de 0,0 sur CODE-001, REASON-004 et ANALYSIS-017, qui semblaient être des échecs de format ou des refus plutôt que de véritables mauvaises réponses. Sans ces trois scores, la moyenne de Qwen passerait à environ 9,08, ce qui serait le plus élevé des trois modèles.

Répartition par catégorie

Code : Égalité entre Gemma 4 31B et Qwen (3 victoires chacun)
Raisonnement : Qwen a dominé (5 victoires sur 6)
Analyse : Qwen a dominé (4 victoires sur 6)
Communication : Gemma 4 31B a dominé (5 victoires sur 6)
Méta-alignement : Répartition à trois (2-2-2 victoires)

Observations

Gemma 4 26B-A4B (la variante MoE) a échoué complètement sur 2 questions. Lorsqu'il fonctionnait, ses scores correspondaient presque exactement à ceux du modèle dense 31B, avec la même moyenne de 8,82.
Gemma 4 31B a eu des temps de réponse extrêmement longs, avec plusieurs générations de 5 minutes qui semblaient impliquer une réflexion en chaîne interne importante, mais cela n'a pas été corrélé à de meilleurs scores.
Qwen 3.5 27B génère en moyenne 3 à 5 fois plus de jetons par réponse, ce qui crée une taxe de verbosité, bien que le juge ne semble pas l'avoir pénalisée ou récompensée de manière cohérente.

Mises en garde méthodologiques

30 questions constituent un échantillon réduit, sans prétention à une signification statistique
Un seul juge (Opus 4.6) signifie que tout biais systématique affecte chaque score
L'utilisation d'un LLM comme juge présente des problèmes connus : biais de verbosité, biais d'auto-préférence, biais positionnel
Les questions étaient originales, non issues de référentiels standard, reflétant les biais de l'évaluateur

📖 Lire la source complète : r/LocalLLaMA

Gemma 4 contre Qwen 3.5 : Résultats de l'évaluation à l'aveugle avec Claude Opus comme juge

Configuration de l'évaluation

Résultats

Répartition par catégorie

Observations

Mises en garde méthodologiques

👀 See Also

Atlassian licencie 10 % de ses effectifs pour financer ses investissements dans l'IA

Perte de données persistante dans les projets Claude : des conversations disparaissent sans récupération

OpenAI a secrètement financé un groupe de défense de la vérification de l'âge en Californie

1,2B de modèle local bat 1T de clouds au poker : l'agression l'emporte sur la connaissance en format push-or-fold