Nemotron 3 4B tem desempenho inferior ao Qwen 3.5 4B em benchmarks exigentes

✍️ OpenClawRadar📅 Publicado: March 19, 2026🔗 Source
Nemotron 3 4B tem desempenho inferior ao Qwen 3.5 4B em benchmarks exigentes
Ad

Resultados de Benchmark: Qwen 3.5 4B Supera o Nemotron 3 4B

Uma comparação detalhada de benchmark entre o Qwen 3.5 4B Q8 e o Nemotron 3 4B Q8 revela diferenças significativas de desempenho em tarefas de raciocínio matemático e geração de saída estruturada.

Metodologia do Teste

O benchmark consistiu em cinco sub-tarefas exigentes que requeriam provas matemáticas, aritmética modular, design de algoritmos e geração de texto multilíngue, tudo encapsulado em formato JSON válido. O prompt exato solicitava:

  • Definição e avaliação de S(n) = Σ(-1)^k C(n,k)/(k+1)^2 com forma fechada em termos de H_{n+1}, avaliação em n=2026 e prova de 8 linhas usando integrais
  • Cálculo de T = Σ[floor((17k+8)/29) - floor((17k-4)/29)] de k=1 a 2026 com justificativa modular
  • Algoritmo de Möbius + inclusão-exclusão para contar pares coprimos em um array dinâmico com pseudocódigo em exatamente 14 linhas (nomes de variáveis ≤8 caracteres)
  • Cálculo de C(4052, 2026) mod 7 usando o teorema de Lucas com conversão para base 7
  • Parágrafo em português de exatamente 47 palavras contendo "Möbius", "inclusão-exclusão" e "Lucas", terminando com "fim."
Ad

Detalhamento dos Resultados

Qwen 3.5 4B Q8 (correto): Produziu JSON válido com todas as sub-tarefas concluídas corretamente. As provas matemáticas foram precisas, incluindo:

{
  "A": {
    "closed_form": "H_{n+1}/(n+1)",
    "value_2026": "H_{2027}/2027",
    "proof_8_lines": "S(n) = sum (-1)^k C(n,k) int_0^1 x^k(-ln x)dx\nSwap sum and integral: -int_0^1 ln(x)(1-x)^n dx\nLet u=1-x: S(n) = -int_0^1 u^n ln(1-u) du\nUsing identity int_0^1 x^n ln(1-x)dx = -H_{n+1}/(n+1)\nWe find S(n) = H_{n+1}/(n+1) for all n>=0\nFor n=2026, value is H_{2027}/2027 exactly.\nQED."
  },
  "B": {
    "value": 838,
    "justification": "Difference is 1 iff (17k-4) mod 29 >= 17. gcd(17,29)=1 so residues cycle every 29 terms. Per period, 12 values qualify. 2026 = 69*29 + 25. Full periods: 69*12=828. Remainder k=1..25: residues for k=26..29 include two >= 17, so remainder adds 10. Total: 838."
  }
}

Nemotron 3 4B Q8 (incorreto): Falhou em produzir raciocínio correto e saída estruturada. Os problemas incluíram:

  • Etapas integrais distorcidas com substituições incorretas na prova matemática
  • Pseudocódigo incompleto com símbolos de hash como espaços reservados em vez das 14 linhas exigidas
  • Parágrafo em português truncado terminando no meio da frase
{
  "C": {
    "pseudocodigo": [
      "read n",
      "a = []",
      "mu = [0]*(max+1)",
      "for i in range(n): a.append(int(input()))",
      "for x in a:",
      " for d in range(1,int(sqrt(x))):",
      " if x%d==0",
      " mu[d]+=1",
      " mu[x//d]-=1",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#"
    ],
    "complexidade": "O(n√max)"
  }
}

Conclusão Principal

O benchmark revela que a vantagem arquitetônica do Nemotron 3 4B – suporte a janelas de contexto maiores – não se traduz em melhor capacidade de raciocínio dentro desse contexto. Embora o Nemotron teoricamente ofereça capacidade de contexto expandida, ele falhou em executar raciocínio matemático complexo e geração de saída estruturada que o Qwen 3.5 4B lidou corretamente.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also