Resultados de Evaluación a Ciega de Gemma 4 vs Qwen 3.5 con Claude Opus como Juez

✍️ OpenClawRadar📅 Publicado: 15 de abril de 2026🔗 Source
Resultados de Evaluación a Ciega de Gemma 4 vs Qwen 3.5 con Claude Opus como Juez
Ad

Un usuario de Reddit realizó una evaluación de tres modelos cara a cara: Gemma 4 31B, Gemma 4 26B-A4B y Qwen 3.5 27B, utilizando a Claude Opus 4.6 como juez calificador.

Configuración de la Evaluación

La prueba utilizó 30 preguntas en cinco categorías: código, razonamiento, análisis, comunicación y meta-alineación (6 preguntas por categoría). Todos los modelos respondieron las mismas preguntas de forma ciega, sin diferencias en el prompt del sistema y con los mismos ajustes de temperatura. Claude Opus 4.6 evaluó cada respuesta de forma independiente en una escala de 0 a 10 utilizando una rúbrica estructurada, con puntuación absoluta por respuesta en lugar de comparación por pares. La evaluación utilizó un solo juez (Opus 4.6) para priorizar la consistencia, aunque esto introduce el riesgo de sesgo posicional. El costo total fue de $4.50.

Resultados

Conteo de victorias (puntuación más alta por pregunta):

  • Qwen 3.5 27B: 14 victorias (46.7%)
  • Gemma 4 31B: 12 victorias (40.0%)
  • Gemma 4 26B-A4B: 4 victorias (13.3%)

Puntuaciones promedio:

  • Gemma 4 31B: 8.82 (30 evaluaciones)
  • Gemma 4 26B-A4B: 8.82 (28 evaluaciones)
  • Qwen 3.5 27B: 8.17 (30 evaluaciones)

Qwen ganó más enfrentamientos, pero tuvo una puntuación promedio más baja debido a tres puntuaciones de 0.0 en CODE-001, REASON-004 y ANALYSIS-017, que parecieron ser fallos de formato o rechazos en lugar de respuestas genuinamente terribles. Sin esas tres puntuaciones, el promedio de Qwen subiría aproximadamente a 9.08, lo que sería el más alto de los tres modelos.

Ad

Desglose por Categoría

  • Código: Empate entre Gemma 4 31B y Qwen (3 victorias cada uno)
  • Razonamiento: Qwen dominó (5 de 6 victorias)
  • Análisis: Qwen dominó (4 de 6 victorias)
  • Comunicación: Gemma 4 31B dominó (5 de 6 victorias)
  • Meta-alineación: División triple (2-2-2 victorias)

Observaciones

  • Gemma 4 26B-A4B (la variante MoE) falló por completo en 2 preguntas. Cuando funcionó, sus puntuaciones coincidieron casi exactamente con las de la versión densa 31B, con el mismo promedio de 8.82.
  • Gemma 4 31B tuvo tiempos de respuesta absurdamente largos, incluyendo múltiples generaciones de 5 minutos que parecían involucrar un pensamiento en cadena interno intenso, pero esto no se correlacionó con mejores puntuaciones.
  • Qwen 3.5 27B genera de 3 a 5 veces más tokens por respuesta en promedio, creando un impuesto de verbosidad, aunque el juez no pareció penalizar o recompensar esto de manera consistente.

Advertencias Metodológicas

  • 30 preguntas es una muestra pequeña sin afirmaciones de significancia estadística
  • Un solo juez (Opus 4.6) significa que cualquier sesgo sistemático afecta cada puntuación
  • Los LLM como jueces tienen problemas conocidos: sesgo de verbosidad, sesgo de autopreferencia, sesgo posicional
  • Las preguntas fueron originales, no de puntos de referencia estándar, reflejando los sesgos del evaluador

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Mercor Breach: 4TB de muestras de voz e identificaciones robadas – Qué pueden hacer ahora los atacantes
Noticias

Mercor Breach: 4TB de muestras de voz e identificaciones robadas – Qué pueden hacer ahora los atacantes

4 TB de grabaciones de voz combinadas con documentos de identidad gubernamentales robadas a 40.000 contratistas de Mercor. Los atacantes pueden clonar voces a partir de 15 segundos de audio limpio y evadir la verificación de huella de voz bancaria, realizar llamadas deepfake y cometer fraudes de seguros.

OpenClawRadar
Dos fallos de IA en una demostración: Claude Code corrige la ortografía en lugar del error de esquema, OpenAI distorsiona el mapeo de campos personalizados
Noticias

Dos fallos de IA en una demostración: Claude Code corrige la ortografía en lugar del error de esquema, OpenAI distorsiona el mapeo de campos personalizados

Durante un taller en vivo, Claude Code ignoró un error de validación del esquema JSON para corregir advertencias ortográficas, y OpenAI devolvió basura en el primer intento de mapear campos extraños personalizados de Salesforce.

OpenClawRadar
Errores de Conexión de Claude para Organizaciones que Bloquean GitHub por Dirección IP
Noticias

Errores de Conexión de Claude para Organizaciones que Bloquean GitHub por Dirección IP

Una actualización automática de estado informa fallos de conexión para organizaciones que restringen el acceso a GitHub por dirección IP, con seguimiento continuo del incidente a través de status.claude.com.

OpenClawRadar
Los frontends generados por IA convergen en patrones de diseño verde esmeralda.
Noticias

Los frontends generados por IA convergen en patrones de diseño verde esmeralda.

Los componentes frontend generados por IA han pasado de la era anterior de gradientes púrpura a una nueva uniformidad centrada en acentos, botones y estados de hover de verde esmeralda. Esta convergencia parece estar vinculada a las habilidades de IA y a los prompts de componentes de Tailwind que asocian el esmeralda con un diseño de UI de calidad.

OpenClawRadar