Qwen 3 8B supera modelos 4 veces más grandes en 12 de 13 tareas

Resultados de la Evaluación

Un sistema de evaluación ciega por pares llamado The Multivac probó 10 modelos de lenguaje pequeños en 13 preguntas difíciles de nivel frontera. Se utilizó el mismo nivel de dificultad para GPT-5.4 y Claude Opus 4.6. Los modelos no sabían qué respuesta provenía de qué modelo, y las clasificaciones se calcularon a partir del consenso entre pares.

Hallazgos Clave

Qwen 3 8B (8B parámetros) logró:

6 victorias de primer lugar de 13 evaluaciones
Terminó entre los 3 primeros en 12 de 13 tareas
Puntuación promedio de 9.40
Peor posición: 5º lugar

Este rendimiento superó a modelos con cantidades de parámetros significativamente mayores, incluyendo:

Gemma 3 27B (27B parámetros): 3 victorias, 11 top-3, promedio 9.33
Kimi K2.5 (32B/1T MoE): 3 victorias, 5 top-3, promedio 8.78
Qwen 3 32B (32B parámetros): 2 victorias, 5 top-3, promedio 8.40

Rendimiento por Tarea

En tareas de código, Qwen 3 8B se ubicó:

1º en depuración de concurrencia Go (9.65)
1º en análisis de bloqueos distribuidos (9.33)
Empatado 1º en optimización SQL (9.66)

En tareas de razonamiento, se ubicó:

1º en la paradoja de Simpson (9.51)
1º en teoría de decisiones de inversión (9.63)
2º en diagnóstico bayesiano (9.53)

Observaciones Destacadas

Qwen 3 32B mostró una caída significativa de rendimiento en la tarea de depuración de bloqueos distribuidos (EVAL-20260315-043330), obteniendo solo 1.00 de 10 mientras que todos los demás modelos obtuvieron más de 5.5. El modelo de 8B obtuvo 9.33 en la misma tarea. La causa no está clara pero podría estar relacionada con el enrutamiento de OpenRouter, artefactos de cuantización o un modo de fallo genuino.

Kimi K2.5, técnicamente un modelo MoE de 32B activos/1T, ganó 3 evaluaciones incluyendo la tarea de depuración 502 (9.57), el teorema de votación de Arrow (9.18) y sesgo de supervivencia (9.63).

Llama 3.1 8B terminó último o penúltimo en 10 de 13 evaluaciones con una puntuación promedio de 7.51, mostrando una brecha masiva comparado con Qwen 3 8B (9.40) a pesar de tener la misma cantidad de parámetros.

Notas Metodológicas

La evaluación utilizó un sistema ciego por pares donde 10 modelos responden la misma pregunta, luego cada modelo juzga las 10 respuestas (100 juicios totales por evaluación, menos autojuicios). El autor señala limitaciones genuinas: que la IA juzgue a la IA tiene un problema de circularidad, y las puntuaciones miden consenso entre pares en lugar de verdad fundamental. Se está desarrollando un estudio de referencia humana para medir correlación.

📖 Read the full source: r/LocalLLaMA

Qwen 3 8B supera a modelos más grandes en evaluaciones ciegas por pares en tareas difíciles.

Resultados de la Evaluación

Hallazgos Clave

Rendimiento por Tarea

Observaciones Destacadas

Notas Metodológicas

👀 Ver también

Claude Code v2.1.117 Lanzamiento: Bifurcación de Subagentes, Mejoras en Complementos y Correcciones de Rendimiento

Estudio de Berkeley: Todos los comandos de revisión de IA desvían la prosa hacia la formalidad, incluso "Preservar la voz"

MicroVMs de AWS Lambda: aislamiento a nivel de VM para código generado por usuario e IA, con suspensión/reanudación de hasta 8 horas

Trump retira la orden ejecutiva sobre IA por temor a frenar la tecnología estadounidense