Gemma 4 vs Qwen 3.5: Resultados de Evaluación a Ciega

Un usuario de Reddit realizó una evaluación de tres modelos cara a cara: Gemma 4 31B, Gemma 4 26B-A4B y Qwen 3.5 27B, utilizando a Claude Opus 4.6 como juez calificador.

Configuración de la Evaluación

La prueba utilizó 30 preguntas en cinco categorías: código, razonamiento, análisis, comunicación y meta-alineación (6 preguntas por categoría). Todos los modelos respondieron las mismas preguntas de forma ciega, sin diferencias en el prompt del sistema y con los mismos ajustes de temperatura. Claude Opus 4.6 evaluó cada respuesta de forma independiente en una escala de 0 a 10 utilizando una rúbrica estructurada, con puntuación absoluta por respuesta en lugar de comparación por pares. La evaluación utilizó un solo juez (Opus 4.6) para priorizar la consistencia, aunque esto introduce el riesgo de sesgo posicional. El costo total fue de $4.50.

Resultados

Conteo de victorias (puntuación más alta por pregunta):

Qwen 3.5 27B: 14 victorias (46.7%)
Gemma 4 31B: 12 victorias (40.0%)
Gemma 4 26B-A4B: 4 victorias (13.3%)

Puntuaciones promedio:

Gemma 4 31B: 8.82 (30 evaluaciones)
Gemma 4 26B-A4B: 8.82 (28 evaluaciones)
Qwen 3.5 27B: 8.17 (30 evaluaciones)

Qwen ganó más enfrentamientos, pero tuvo una puntuación promedio más baja debido a tres puntuaciones de 0.0 en CODE-001, REASON-004 y ANALYSIS-017, que parecieron ser fallos de formato o rechazos en lugar de respuestas genuinamente terribles. Sin esas tres puntuaciones, el promedio de Qwen subiría aproximadamente a 9.08, lo que sería el más alto de los tres modelos.

Desglose por Categoría

Código: Empate entre Gemma 4 31B y Qwen (3 victorias cada uno)
Razonamiento: Qwen dominó (5 de 6 victorias)
Análisis: Qwen dominó (4 de 6 victorias)
Comunicación: Gemma 4 31B dominó (5 de 6 victorias)
Meta-alineación: División triple (2-2-2 victorias)

Observaciones

Gemma 4 26B-A4B (la variante MoE) falló por completo en 2 preguntas. Cuando funcionó, sus puntuaciones coincidieron casi exactamente con las de la versión densa 31B, con el mismo promedio de 8.82.
Gemma 4 31B tuvo tiempos de respuesta absurdamente largos, incluyendo múltiples generaciones de 5 minutos que parecían involucrar un pensamiento en cadena interno intenso, pero esto no se correlacionó con mejores puntuaciones.
Qwen 3.5 27B genera de 3 a 5 veces más tokens por respuesta en promedio, creando un impuesto de verbosidad, aunque el juez no pareció penalizar o recompensar esto de manera consistente.

Advertencias Metodológicas

30 preguntas es una muestra pequeña sin afirmaciones de significancia estadística
Un solo juez (Opus 4.6) significa que cualquier sesgo sistemático afecta cada puntuación
Los LLM como jueces tienen problemas conocidos: sesgo de verbosidad, sesgo de autopreferencia, sesgo posicional
Las preguntas fueron originales, no de puntos de referencia estándar, reflejando los sesgos del evaluador

📖 Leer la fuente completa: r/LocalLLaMA

Resultados de Evaluación a Ciega de Gemma 4 vs Qwen 3.5 con Claude Opus como Juez

Configuración de la Evaluación

Resultados

Desglose por Categoría

Observaciones

Advertencias Metodológicas

👀 Ver también

Claude Code v2.1.89 agrega ganchos diferibles, reintento de permisos y corrige fugas de memoria.

Anthropic utiliza Google Forms para recibir comentarios sobre Claude

Actualizaciones de Claude Code Engineer: Preguntas al Usuario en Markdown, Hooks HTTP, Nuevas Habilidades

Los desarrolladores de Silicon Valley reportan patrones de uso intensivo de Claude AI y tensión en la infraestructura.