Gemma 4 contre Qwen 3.5 : Résultats de l'évaluation à l'aveugle avec Claude Opus comme juge

Un utilisateur de Reddit a réalisé une évaluation en confrontation directe à trois entre les modèles Gemma 4 31B, Gemma 4 26B-A4B et Qwen 3.5 27B, en utilisant Claude Opus 4.6 comme juge pour l'attribution des scores.
Configuration de l'évaluation
Le test a utilisé 30 questions réparties en cinq catégories : code, raisonnement, analyse, communication et méta-alignement (6 questions par catégorie). Tous les modèles ont répondu aux mêmes questions à l'aveugle, sans différences dans les instructions système et avec les mêmes paramètres de température. Claude Opus 4.6 a évalué chaque réponse indépendamment sur une échelle de 0 à 10 en utilisant une grille structurée, avec un score absolu par réponse plutôt qu'une comparaison par paires. L'évaluation a utilisé un seul juge (Opus 4.6) pour privilégier la cohérence, bien que cela introduise un risque de biais positionnel. Le coût total a été de 4,50 $.
Résultats
Nombre de victoires (score le plus élevé par question) :
- Qwen 3.5 27B : 14 victoires (46,7 %)
- Gemma 4 31B : 12 victoires (40,0 %)
- Gemma 4 26B-A4B : 4 victoires (13,3 %)
Scores moyens :
- Gemma 4 31B : 8,82 (30 évaluations)
- Gemma 4 26B-A4B : 8,82 (28 évaluations)
- Qwen 3.5 27B : 8,17 (30 évaluations)
Qwen a remporté plus de confrontations mais a obtenu un score moyen inférieur en raison de trois scores de 0,0 sur CODE-001, REASON-004 et ANALYSIS-017, qui semblaient être des échecs de format ou des refus plutôt que de véritables mauvaises réponses. Sans ces trois scores, la moyenne de Qwen passerait à environ 9,08, ce qui serait le plus élevé des trois modèles.
Répartition par catégorie
- Code : Égalité entre Gemma 4 31B et Qwen (3 victoires chacun)
- Raisonnement : Qwen a dominé (5 victoires sur 6)
- Analyse : Qwen a dominé (4 victoires sur 6)
- Communication : Gemma 4 31B a dominé (5 victoires sur 6)
- Méta-alignement : Répartition à trois (2-2-2 victoires)
Observations
- Gemma 4 26B-A4B (la variante MoE) a échoué complètement sur 2 questions. Lorsqu'il fonctionnait, ses scores correspondaient presque exactement à ceux du modèle dense 31B, avec la même moyenne de 8,82.
- Gemma 4 31B a eu des temps de réponse extrêmement longs, avec plusieurs générations de 5 minutes qui semblaient impliquer une réflexion en chaîne interne importante, mais cela n'a pas été corrélé à de meilleurs scores.
- Qwen 3.5 27B génère en moyenne 3 à 5 fois plus de jetons par réponse, ce qui crée une taxe de verbosité, bien que le juge ne semble pas l'avoir pénalisée ou récompensée de manière cohérente.
Mises en garde méthodologiques
- 30 questions constituent un échantillon réduit, sans prétention à une signification statistique
- Un seul juge (Opus 4.6) signifie que tout biais systématique affecte chaque score
- L'utilisation d'un LLM comme juge présente des problèmes connus : biais de verbosité, biais d'auto-préférence, biais positionnel
- Les questions étaient originales, non issues de référentiels standard, reflétant les biais de l'évaluateur
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Nvidia développerait apparemment NemoClaw, un outil open-source, pour concurrencer OpenClaw.
Des rapports récents suggèrent que Nvidia travaille sur un projet open-source appelé NemoClaw visant à concurrencer directement OpenClaw dans les outils de développement d'IA. Le projet devrait se concentrer sur l'amélioration des performances, de l'évolutivité et de la flexibilité pour les développeurs, tout en maintenant la compatibilité avec les flux de travail d'IA modernes.

Chute des prix des abonnements IA : pourquoi votre facture d'entreprise va être multipliée par 10
Des laboratoires d'IA comme OpenAI, Anthropic et Microsoft perdent de l'argent sur chaque abonnement. Les charges de travail agentiques ont brisé le modèle d'abonnement forfaitaire — GitHub Copilot passe à la facturation à l'usage le 1er juin 2026. Les entreprises qui ont bâti sur des prix subventionnés font face à une correction.

Mises à jour de l'invite système Claude Code 2.1.72 : Nouveaux modes d'exécution et améliorations de la vérification
La version 2.1.72 de Claude Code introduit de nouveaux prompts système pour le mode Auto (exécution continue de tâches) et le mode Brief (exécution de type Codex), ainsi que des extensions majeures à l'agent spécialiste de Vérification avec des modèles d'échec documentés et des exigences de sortie structurée.

Traduction en français : Œuf de Pâques /buddy de Claude Code et Demandes de Fonctionnalités des Utilisateurs
Claude Code inclut une commande cachée /buddy qui crée un compagnon de style Tamagotchi avec une espèce, des statistiques et des commentaires décoratifs. Un abonné Max avec plus de 840 sessions a détaillé les limitations actuelles et proposé des améliorations fonctionnelles.