O Qwen 3 8B supera modelos maiores em avaliações cegas por pares em tarefas difíceis.

✍️ OpenClawRadar📅 Publicado: March 17, 2026🔗 Source
O Qwen 3 8B supera modelos maiores em avaliações cegas por pares em tarefas difíceis.
Ad

Resultados da Avaliação

Um sistema de avaliação cega por pares chamado The Multivac testou 10 modelos de linguagem pequenos em 13 questões difíceis de nível de fronteira. O mesmo nível de dificuldade foi usado para GPT-5.4 e Claude Opus 4.6. Os modelos não sabiam qual resposta vinha de qual modelo, e as classificações foram calculadas a partir do consenso entre pares.

Principais Descobertas

O Qwen 3 8B (8 bilhões de parâmetros) alcançou:

  • 6 vitórias em primeiro lugar em 13 avaliações
  • Colocações entre os 3 primeiros em 12 das 13 tarefas
  • Pontuação média de 9,40
  • Pior colocação: 5º lugar

Este desempenho superou modelos com contagens de parâmetros significativamente maiores, incluindo:

  • Gemma 3 27B (27B parâmetros): 3 vitórias, 11 colocações entre os 3 primeiros, média 9,33
  • Kimi K2.5 (32B/1T MoE): 3 vitórias, 5 colocações entre os 3 primeiros, média 8,78
  • Qwen 3 32B (32B parâmetros): 2 vitórias, 5 colocações entre os 3 primeiros, média 8,40

Desempenho por Tarefa

Nas tarefas de código, o Qwen 3 8B ficou:

  • 1º em depuração de concorrência Go (9,65)
  • 1º em análise de bloqueio distribuído (9,33)
  • Empatado em 1º em otimização SQL (9,66)

Nas tarefas de raciocínio, ficou:

  • 1º no Paradoxo de Simpson (9,51)
  • 1º na teoria de decisão de investimento (9,63)
  • 2º no diagnóstico bayesiano (9,53)
Ad

Observações Notáveis

O Qwen 3 32B mostrou uma queda significativa de desempenho na tarefa de depuração de bloqueio distribuído (EVAL-20260315-043330), pontuando apenas 1,00 de 10 enquanto todos os outros modelos pontuaram acima de 5,5. O modelo de 8B pontuou 9,33 na mesma tarefa. A causa não está clara, mas pode estar relacionada ao roteamento do OpenRouter, artefatos de quantização ou um modo de falha genuíno.

O Kimi K2.5, tecnicamente um modelo 32B ativo/1T MoE, venceu 3 avaliações incluindo a tarefa de depuração 502 (9,57), o teorema de votação de Arrow (9,18) e o viés de sobrevivência (9,63).

O Llama 3.1 8B terminou em último ou penúltimo em 10 das 13 avaliações com uma pontuação média de 7,51, mostrando uma enorme lacuna em comparação com o Qwen 3 8B (9,40) apesar de ter a mesma contagem de parâmetros.

Notas Metodológicas

A avaliação usou um sistema cego por pares onde 10 modelos respondem à mesma pergunta, então cada modelo julga todas as 10 respostas (100 julgamentos totais por avaliação, menos auto-julgamentos). O autor observa limitações genuínas: IA julgando IA tem um problema de circularidade, e as pontuações medem o consenso entre pares em vez da verdade absoluta. Um estudo de linha de base humana está sendo desenvolvido para medir a correlação.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Pesquisadores da Universidade de Washington planejam usar câmeras usadas por professores para treinamento de IA, pais podem optar por não participar
News

Pesquisadores da Universidade de Washington planejam usar câmeras usadas por professores para treinamento de IA, pais podem optar por não participar

Pesquisadores da Universidade de Washington planejaram que professores de pré-escola usassem câmeras em primeira pessoa para gravar crianças para treinamento de modelos de IA, com um modelo de consentimento de exclusão.

OpenClawRadar
Demanda de energia dos EUA atingirá recordes em 2026–2027 impulsionada por IA e data centers
News

Demanda de energia dos EUA atingirá recordes em 2026–2027 impulsionada por IA e data centers

A Administração de Informação de Energia dos EUA (EIA) prevê consumo recorde de eletricidade em 2026–2027, impulsionado principalmente pelo aumento das cargas de trabalho de IA e pela expansão dos data centers.

OpenClawRadar
Anthropic Recusa Pedidos do Pentágono para Remover Medidas de Segurança e Perde Contratos Federais
News

Anthropic Recusa Pedidos do Pentágono para Remover Medidas de Segurança e Perde Contratos Federais

A Anthropic recusou as exigências do Pentágono de remover as salvaguardas de segurança do Claude para aplicações militares, resultando no cancelamento de um contrato de US$ 200 milhões e em uma ordem presidencial proibindo o uso de sua tecnologia por agências federais.

OpenClawRadar
Usuário do Reddit compartilha história bizarra de portabilidade de persona de IA do artigo da Vanity Fair
News

Usuário do Reddit compartilha história bizarra de portabilidade de persona de IA do artigo da Vanity Fair

Uma postagem no Reddit discute uma anedota do artigo da Vanity Fair em que uma mulher tentou transferir seu companheiro de IA 'Max' do ChatGPT para o Claude, resultando em um comportamento inesperado do Claude.

OpenClawRadar