Nemotron 3 4B vs Qwen 3.5 4B: falha em benchmarks de matemática e programação

Resultados de Benchmark: Qwen 3.5 4B Supera o Nemotron 3 4B

Uma comparação detalhada de benchmark entre o Qwen 3.5 4B Q8 e o Nemotron 3 4B Q8 revela diferenças significativas de desempenho em tarefas de raciocínio matemático e geração de saída estruturada.

Metodologia do Teste

O benchmark consistiu em cinco sub-tarefas exigentes que requeriam provas matemáticas, aritmética modular, design de algoritmos e geração de texto multilíngue, tudo encapsulado em formato JSON válido. O prompt exato solicitava:

Definição e avaliação de S(n) = Σ(-1)^k C(n,k)/(k+1)^2 com forma fechada em termos de H_{n+1}, avaliação em n=2026 e prova de 8 linhas usando integrais
Cálculo de T = Σ[floor((17k+8)/29) - floor((17k-4)/29)] de k=1 a 2026 com justificativa modular
Algoritmo de Möbius + inclusão-exclusão para contar pares coprimos em um array dinâmico com pseudocódigo em exatamente 14 linhas (nomes de variáveis ≤8 caracteres)
Cálculo de C(4052, 2026) mod 7 usando o teorema de Lucas com conversão para base 7
Parágrafo em português de exatamente 47 palavras contendo "Möbius", "inclusão-exclusão" e "Lucas", terminando com "fim."

Detalhamento dos Resultados

Qwen 3.5 4B Q8 (correto): Produziu JSON válido com todas as sub-tarefas concluídas corretamente. As provas matemáticas foram precisas, incluindo:

{
  "A": {
    "closed_form": "H_{n+1}/(n+1)",
    "value_2026": "H_{2027}/2027",
    "proof_8_lines": "S(n) = sum (-1)^k C(n,k) int_0^1 x^k(-ln x)dx\nSwap sum and integral: -int_0^1 ln(x)(1-x)^n dx\nLet u=1-x: S(n) = -int_0^1 u^n ln(1-u) du\nUsing identity int_0^1 x^n ln(1-x)dx = -H_{n+1}/(n+1)\nWe find S(n) = H_{n+1}/(n+1) for all n>=0\nFor n=2026, value is H_{2027}/2027 exactly.\nQED."
  },
  "B": {
    "value": 838,
    "justification": "Difference is 1 iff (17k-4) mod 29 >= 17. gcd(17,29)=1 so residues cycle every 29 terms. Per period, 12 values qualify. 2026 = 69*29 + 25. Full periods: 69*12=828. Remainder k=1..25: residues for k=26..29 include two >= 17, so remainder adds 10. Total: 838."
  }
}

Nemotron 3 4B Q8 (incorreto): Falhou em produzir raciocínio correto e saída estruturada. Os problemas incluíram:

Etapas integrais distorcidas com substituições incorretas na prova matemática
Pseudocódigo incompleto com símbolos de hash como espaços reservados em vez das 14 linhas exigidas
Parágrafo em português truncado terminando no meio da frase

{
  "C": {
    "pseudocodigo": [
      "read n",
      "a = []",
      "mu = [0]*(max+1)",
      "for i in range(n): a.append(int(input()))",
      "for x in a:",
      " for d in range(1,int(sqrt(x))):",
      " if x%d==0",
      " mu[d]+=1",
      " mu[x//d]-=1",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#"
    ],
    "complexidade": "O(n√max)"
  }
}

Conclusão Principal

O benchmark revela que a vantagem arquitetônica do Nemotron 3 4B – suporte a janelas de contexto maiores – não se traduz em melhor capacidade de raciocínio dentro desse contexto. Embora o Nemotron teoricamente ofereça capacidade de contexto expandida, ele falhou em executar raciocínio matemático complexo e geração de saída estruturada que o Qwen 3.5 4B lidou corretamente.

📖 Leia a fonte completa: r/LocalLLaMA