Gemma 4 vs Qwen 3.5: Resultados da Avaliação Cega

Um usuário do Reddit conduziu uma avaliação de confronto direto entre três modelos: Gemma 4 31B, Gemma 4 26B-A4B e Qwen 3.5 27B, usando o Claude Opus 4.6 como juiz de pontuação.

Configuração da Avaliação

O teste utilizou 30 perguntas em cinco categorias: código, raciocínio, análise, comunicação e meta-alinhamento (6 perguntas por categoria). Todos os modelos responderam às mesmas perguntas de forma cega, sem diferenças nos prompts do sistema e com as mesmas configurações de temperatura. O Claude Opus 4.6 julgou cada resposta independentemente em uma escala de 0 a 10 usando uma rubrica estruturada, com pontuação absoluta por resposta em vez de comparação pareada. A avaliação usou um único juiz (Opus 4.6) para priorizar a consistência, embora isso introduza o risco de viés posicional. O custo total foi de US$ 4,50.

Resultados

Contagem de vitórias (maior pontuação por pergunta):

Qwen 3.5 27B: 14 vitórias (46,7%)
Gemma 4 31B: 12 vitórias (40,0%)
Gemma 4 26B-A4B: 4 vitórias (13,3%)

Pontuações médias:

Gemma 4 31B: 8,82 (30 avaliações)
Gemma 4 26B-A4B: 8,82 (28 avaliações)
Qwen 3.5 27B: 8,17 (30 avaliações)

O Qwen venceu mais confrontos, mas teve uma pontuação média mais baixa devido a três pontuações de 0,0 nas perguntas CODE-001, REASON-004 e ANALYSIS-017, que pareceram ser falhas de formatação ou recusas em vez de respostas genuinamente ruins. Sem essas três pontuações, a média do Qwen salta para aproximadamente 9,08, o que seria a mais alta entre os três modelos.

Detalhamento por Categoria

Código: Empate entre Gemma 4 31B e Qwen (3 vitórias cada)
Raciocínio: Qwen dominou (5 das 6 vitórias)
Análise: Qwen dominou (4 das 6 vitórias)
Comunicação: Gemma 4 31B dominou (5 das 6 vitórias)
Meta-alinhamento: Divisão tripla (2-2-2 vitórias)

Observações

O Gemma 4 26B-A4B (a variante MoE) falhou completamente em 2 perguntas. Quando funcionou, suas pontuações corresponderam quase exatamente às do modelo denso 31B, com a mesma média de 8,82.
O Gemma 4 31B teve alguns tempos de resposta absurdamente longos, incluindo múltiplas gerações de 5 minutos que pareciam envolver um pensamento interno pesado, mas isso não se correlacionou com pontuações melhores.
O Qwen 3.5 27B gera 3 a 5 vezes mais tokens por resposta em média, criando uma penalidade de verbosidade, embora o juiz não pareça ter penalizado ou recompensado isso de forma consistente.

Ressalvas Metodológicas

30 perguntas é uma amostra pequena, sem alegações de significância estatística
Um único juiz (Opus 4.6) significa que qualquer viés sistemático afeta todas as pontuações
LLM como juiz tem problemas conhecidos: viés de verbosidade, viés de autopreferência, viés posicional
As perguntas eram originais, não de benchmarks padrão, refletindo os vieses do avaliador

📖 Leia a fonte completa: r/LocalLLaMA