Resultados da Avaliação Cega de Gemma 4 vs Qwen 3.5 com Claude Opus como Juiz

✍️ OpenClawRadar📅 Publicado: April 15, 2026🔗 Source
Resultados da Avaliação Cega de Gemma 4 vs Qwen 3.5 com Claude Opus como Juiz
Ad

Um usuário do Reddit conduziu uma avaliação de confronto direto entre três modelos: Gemma 4 31B, Gemma 4 26B-A4B e Qwen 3.5 27B, usando o Claude Opus 4.6 como juiz de pontuação.

Configuração da Avaliação

O teste utilizou 30 perguntas em cinco categorias: código, raciocínio, análise, comunicação e meta-alinhamento (6 perguntas por categoria). Todos os modelos responderam às mesmas perguntas de forma cega, sem diferenças nos prompts do sistema e com as mesmas configurações de temperatura. O Claude Opus 4.6 julgou cada resposta independentemente em uma escala de 0 a 10 usando uma rubrica estruturada, com pontuação absoluta por resposta em vez de comparação pareada. A avaliação usou um único juiz (Opus 4.6) para priorizar a consistência, embora isso introduza o risco de viés posicional. O custo total foi de US$ 4,50.

Resultados

Contagem de vitórias (maior pontuação por pergunta):

  • Qwen 3.5 27B: 14 vitórias (46,7%)
  • Gemma 4 31B: 12 vitórias (40,0%)
  • Gemma 4 26B-A4B: 4 vitórias (13,3%)

Pontuações médias:

  • Gemma 4 31B: 8,82 (30 avaliações)
  • Gemma 4 26B-A4B: 8,82 (28 avaliações)
  • Qwen 3.5 27B: 8,17 (30 avaliações)

O Qwen venceu mais confrontos, mas teve uma pontuação média mais baixa devido a três pontuações de 0,0 nas perguntas CODE-001, REASON-004 e ANALYSIS-017, que pareceram ser falhas de formatação ou recusas em vez de respostas genuinamente ruins. Sem essas três pontuações, a média do Qwen salta para aproximadamente 9,08, o que seria a mais alta entre os três modelos.

Ad

Detalhamento por Categoria

  • Código: Empate entre Gemma 4 31B e Qwen (3 vitórias cada)
  • Raciocínio: Qwen dominou (5 das 6 vitórias)
  • Análise: Qwen dominou (4 das 6 vitórias)
  • Comunicação: Gemma 4 31B dominou (5 das 6 vitórias)
  • Meta-alinhamento: Divisão tripla (2-2-2 vitórias)

Observações

  • O Gemma 4 26B-A4B (a variante MoE) falhou completamente em 2 perguntas. Quando funcionou, suas pontuações corresponderam quase exatamente às do modelo denso 31B, com a mesma média de 8,82.
  • O Gemma 4 31B teve alguns tempos de resposta absurdamente longos, incluindo múltiplas gerações de 5 minutos que pareciam envolver um pensamento interno pesado, mas isso não se correlacionou com pontuações melhores.
  • O Qwen 3.5 27B gera 3 a 5 vezes mais tokens por resposta em média, criando uma penalidade de verbosidade, embora o juiz não pareça ter penalizado ou recompensado isso de forma consistente.

Ressalvas Metodológicas

  • 30 perguntas é uma amostra pequena, sem alegações de significância estatística
  • Um único juiz (Opus 4.6) significa que qualquer viés sistemático afeta todas as pontuações
  • LLM como juiz tem problemas conhecidos: viés de verbosidade, viés de autopreferência, viés posicional
  • As perguntas eram originais, não de benchmarks padrão, refletindo os vieses do avaliador

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

MiniMax M2.7 Modelo Lançado com Desempenho de Codificação Aprimorado
News

MiniMax M2.7 Modelo Lançado com Desempenho de Codificação Aprimorado

A MiniMax lançou o M2.7, um modelo de IA que atinge 56% nos benchmarks de codificação SWE-Pro e inclui capacidades de autootimização. O modelo mantém o preço em US$ 0,30 por milhão de tokens de entrada.

OpenClawRadar
Agente de IA Gerencia Loja Física com Funcionários Humanos
News

Agente de IA Gerencia Loja Física com Funcionários Humanos

A Andon Labs implantou uma IA chamada Luna para gerenciar um contrato de locação comercial de 3 anos em São Francisco. A Luna contratou funcionários humanos, gerenciou prestadores de serviços e tomou todas as decisões operacionais para o Andon Market.

OpenClawRadar
Gemma 4 Sinais Iniciais: Adequação à Implantação Acima do Hype para Fluxos de Trabalho de Agentes Locais
News

Gemma 4 Sinais Iniciais: Adequação à Implantação Acima do Hype para Fluxos de Trabalho de Agentes Locais

O lançamento do Gemma 4 enfatiza a implantação em diferentes níveis de hardware, com posicionamento oficial para hardware pessoal e dispositivos de borda/móveis. A quantização NVFP4 da NVIDIA mostra compressão de 4x com retenção de 99,7% da linha de base no GPQA, e os rankings da Arena posicionam o modelo denso de 31B em torno da posição #27.

OpenClawRadar
Título do artigo: "Claude Code supostamente recusa solicitações ou cobra a mais quando commits mencionam 'OpenClaw'"
News

Título do artigo: "Claude Code supostamente recusa solicitações ou cobra a mais quando commits mencionam 'OpenClaw'"

Um tweet de Theo alega que o Claude Code recusa solicitações ou cobra a mais se seus commits git mencionarem 'OpenClaw', gerando discussão no HN.

OpenClawRadar