Qwen 3 8B Supera Modelos 4x Maiores em 12 de 13 Tarefas

Resultados da Avaliação

Um sistema de avaliação cega por pares chamado The Multivac testou 10 modelos de linguagem pequenos em 13 questões difíceis de nível de fronteira. O mesmo nível de dificuldade foi usado para GPT-5.4 e Claude Opus 4.6. Os modelos não sabiam qual resposta vinha de qual modelo, e as classificações foram calculadas a partir do consenso entre pares.

Principais Descobertas

O Qwen 3 8B (8 bilhões de parâmetros) alcançou:

6 vitórias em primeiro lugar em 13 avaliações
Colocações entre os 3 primeiros em 12 das 13 tarefas
Pontuação média de 9,40
Pior colocação: 5º lugar

Este desempenho superou modelos com contagens de parâmetros significativamente maiores, incluindo:

Gemma 3 27B (27B parâmetros): 3 vitórias, 11 colocações entre os 3 primeiros, média 9,33
Kimi K2.5 (32B/1T MoE): 3 vitórias, 5 colocações entre os 3 primeiros, média 8,78
Qwen 3 32B (32B parâmetros): 2 vitórias, 5 colocações entre os 3 primeiros, média 8,40

Desempenho por Tarefa

Nas tarefas de código, o Qwen 3 8B ficou:

1º em depuração de concorrência Go (9,65)
1º em análise de bloqueio distribuído (9,33)
Empatado em 1º em otimização SQL (9,66)

Nas tarefas de raciocínio, ficou:

1º no Paradoxo de Simpson (9,51)
1º na teoria de decisão de investimento (9,63)
2º no diagnóstico bayesiano (9,53)

Observações Notáveis

O Qwen 3 32B mostrou uma queda significativa de desempenho na tarefa de depuração de bloqueio distribuído (EVAL-20260315-043330), pontuando apenas 1,00 de 10 enquanto todos os outros modelos pontuaram acima de 5,5. O modelo de 8B pontuou 9,33 na mesma tarefa. A causa não está clara, mas pode estar relacionada ao roteamento do OpenRouter, artefatos de quantização ou um modo de falha genuíno.

O Kimi K2.5, tecnicamente um modelo 32B ativo/1T MoE, venceu 3 avaliações incluindo a tarefa de depuração 502 (9,57), o teorema de votação de Arrow (9,18) e o viés de sobrevivência (9,63).

O Llama 3.1 8B terminou em último ou penúltimo em 10 das 13 avaliações com uma pontuação média de 7,51, mostrando uma enorme lacuna em comparação com o Qwen 3 8B (9,40) apesar de ter a mesma contagem de parâmetros.

Notas Metodológicas

A avaliação usou um sistema cego por pares onde 10 modelos respondem à mesma pergunta, então cada modelo julga todas as 10 respostas (100 julgamentos totais por avaliação, menos auto-julgamentos). O autor observa limitações genuínas: IA julgando IA tem um problema de circularidade, e as pontuações medem o consenso entre pares em vez da verdade absoluta. Um estudo de linha de base humana está sendo desenvolvido para medir a correlação.

📖 Read the full source: r/LocalLLaMA