Qwen 3 8B supera a modelos más grandes en evaluaciones ciegas por pares en tareas difíciles.

Resultados de la Evaluación
Un sistema de evaluación ciega por pares llamado The Multivac probó 10 modelos de lenguaje pequeños en 13 preguntas difíciles de nivel frontera. Se utilizó el mismo nivel de dificultad para GPT-5.4 y Claude Opus 4.6. Los modelos no sabían qué respuesta provenía de qué modelo, y las clasificaciones se calcularon a partir del consenso entre pares.
Hallazgos Clave
Qwen 3 8B (8B parámetros) logró:
- 6 victorias de primer lugar de 13 evaluaciones
- Terminó entre los 3 primeros en 12 de 13 tareas
- Puntuación promedio de 9.40
- Peor posición: 5º lugar
Este rendimiento superó a modelos con cantidades de parámetros significativamente mayores, incluyendo:
- Gemma 3 27B (27B parámetros): 3 victorias, 11 top-3, promedio 9.33
- Kimi K2.5 (32B/1T MoE): 3 victorias, 5 top-3, promedio 8.78
- Qwen 3 32B (32B parámetros): 2 victorias, 5 top-3, promedio 8.40
Rendimiento por Tarea
En tareas de código, Qwen 3 8B se ubicó:
- 1º en depuración de concurrencia Go (9.65)
- 1º en análisis de bloqueos distribuidos (9.33)
- Empatado 1º en optimización SQL (9.66)
En tareas de razonamiento, se ubicó:
- 1º en la paradoja de Simpson (9.51)
- 1º en teoría de decisiones de inversión (9.63)
- 2º en diagnóstico bayesiano (9.53)
Observaciones Destacadas
Qwen 3 32B mostró una caída significativa de rendimiento en la tarea de depuración de bloqueos distribuidos (EVAL-20260315-043330), obteniendo solo 1.00 de 10 mientras que todos los demás modelos obtuvieron más de 5.5. El modelo de 8B obtuvo 9.33 en la misma tarea. La causa no está clara pero podría estar relacionada con el enrutamiento de OpenRouter, artefactos de cuantización o un modo de fallo genuino.
Kimi K2.5, técnicamente un modelo MoE de 32B activos/1T, ganó 3 evaluaciones incluyendo la tarea de depuración 502 (9.57), el teorema de votación de Arrow (9.18) y sesgo de supervivencia (9.63).
Llama 3.1 8B terminó último o penúltimo en 10 de 13 evaluaciones con una puntuación promedio de 7.51, mostrando una brecha masiva comparado con Qwen 3 8B (9.40) a pesar de tener la misma cantidad de parámetros.
Notas Metodológicas
La evaluación utilizó un sistema ciego por pares donde 10 modelos responden la misma pregunta, luego cada modelo juzga las 10 respuestas (100 juicios totales por evaluación, menos autojuicios). El autor señala limitaciones genuinas: que la IA juzgue a la IA tiene un problema de circularidad, y las puntuaciones miden consenso entre pares en lugar de verdad fundamental. Se está desarrollando un estudio de referencia humana para medir correlación.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Desarrollador Busca Consejos de Arquitectura para Servir Modelos Embed, Rerank y Zero-Shot en 8GB de VRAM
Un desarrollador que está construyendo un servicio unificado de Grafo de Conocimiento/RAG para un agente de codificación local tiene problemas con las limitaciones de memoria en 8GB de VRAM y 16GB de RAM del sistema, experimentando errores OOM, picos de latencia y terminaciones del kernel de Linux al servir tres modelos transformadores simultáneamente.

Se informa que el código fuente de Claude Code se filtró, revelando detalles de la arquitectura de agentes.
El código fuente de Claude Code, el agente de codificación de IA de Anthropic, parece haber sido filtrado, conteniendo el repositorio completo con indicaciones del sistema, implementación del bucle del agente e infraestructura de llamadas a herramientas.

Colaborador de OpenClaw critica el enfoque del proyecto en la paridad pixel-perfect por sobre características modernas.
Una publicación de Reddit en r/openclaw detalla cómo una solicitud de extracción (PR) de un colaborador que abordaba el escalado de resolución y la compatibilidad con altas tasas de refresco fue rechazada por desviarse de las limitaciones visuales del motor original, generando un debate sobre la dirección del proyecto.

La Corte Suprema se niega a escuchar el caso de derechos de autor de IA, dejando intacta la decisión del tribunal inferior.
La Corte Suprema de EE. UU. se negó a escuchar una disputa sobre derechos de autor de material generado por IA, dejando vigente un fallo de un tribunal inferior que denegó la protección de derechos de autor para obras creadas sin autoría humana.