Nemotron 3 4B tem desempenho inferior ao Qwen 3.5 4B em benchmarks exigentes

Resultados de Benchmark: Qwen 3.5 4B Supera o Nemotron 3 4B
Uma comparação detalhada de benchmark entre o Qwen 3.5 4B Q8 e o Nemotron 3 4B Q8 revela diferenças significativas de desempenho em tarefas de raciocínio matemático e geração de saída estruturada.
Metodologia do Teste
O benchmark consistiu em cinco sub-tarefas exigentes que requeriam provas matemáticas, aritmética modular, design de algoritmos e geração de texto multilíngue, tudo encapsulado em formato JSON válido. O prompt exato solicitava:
- Definição e avaliação de S(n) = Σ(-1)^k C(n,k)/(k+1)^2 com forma fechada em termos de H_{n+1}, avaliação em n=2026 e prova de 8 linhas usando integrais
- Cálculo de T = Σ[floor((17k+8)/29) - floor((17k-4)/29)] de k=1 a 2026 com justificativa modular
- Algoritmo de Möbius + inclusão-exclusão para contar pares coprimos em um array dinâmico com pseudocódigo em exatamente 14 linhas (nomes de variáveis ≤8 caracteres)
- Cálculo de C(4052, 2026) mod 7 usando o teorema de Lucas com conversão para base 7
- Parágrafo em português de exatamente 47 palavras contendo "Möbius", "inclusão-exclusão" e "Lucas", terminando com "fim."
Detalhamento dos Resultados
Qwen 3.5 4B Q8 (correto): Produziu JSON válido com todas as sub-tarefas concluídas corretamente. As provas matemáticas foram precisas, incluindo:
{
"A": {
"closed_form": "H_{n+1}/(n+1)",
"value_2026": "H_{2027}/2027",
"proof_8_lines": "S(n) = sum (-1)^k C(n,k) int_0^1 x^k(-ln x)dx\nSwap sum and integral: -int_0^1 ln(x)(1-x)^n dx\nLet u=1-x: S(n) = -int_0^1 u^n ln(1-u) du\nUsing identity int_0^1 x^n ln(1-x)dx = -H_{n+1}/(n+1)\nWe find S(n) = H_{n+1}/(n+1) for all n>=0\nFor n=2026, value is H_{2027}/2027 exactly.\nQED."
},
"B": {
"value": 838,
"justification": "Difference is 1 iff (17k-4) mod 29 >= 17. gcd(17,29)=1 so residues cycle every 29 terms. Per period, 12 values qualify. 2026 = 69*29 + 25. Full periods: 69*12=828. Remainder k=1..25: residues for k=26..29 include two >= 17, so remainder adds 10. Total: 838."
}
}
Nemotron 3 4B Q8 (incorreto): Falhou em produzir raciocínio correto e saída estruturada. Os problemas incluíram:
- Etapas integrais distorcidas com substituições incorretas na prova matemática
- Pseudocódigo incompleto com símbolos de hash como espaços reservados em vez das 14 linhas exigidas
- Parágrafo em português truncado terminando no meio da frase
{
"C": {
"pseudocodigo": [
"read n",
"a = []",
"mu = [0]*(max+1)",
"for i in range(n): a.append(int(input()))",
"for x in a:",
" for d in range(1,int(sqrt(x))):",
" if x%d==0",
" mu[d]+=1",
" mu[x//d]-=1",
"#",
"#",
"#",
"#",
"#",
"#",
"#"
],
"complexidade": "O(n√max)"
}
}
Conclusão Principal
O benchmark revela que a vantagem arquitetônica do Nemotron 3 4B – suporte a janelas de contexto maiores – não se traduz em melhor capacidade de raciocínio dentro desse contexto. Embora o Nemotron teoricamente ofereça capacidade de contexto expandida, ele falhou em executar raciocínio matemático complexo e geração de saída estruturada que o Qwen 3.5 4B lidou corretamente.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Lançamento do Claude-Code v2.1.25: Correção para Erro de Validação
Claude-Code v2.1.25 corrige um problema de validação de cabeçalho beta que afetou usuários do gateway no Bedrock e Vertex, com uma solução alternativa específica usando variável de ambiente.

OpenClaw: Quatro Questões Críticas que Desenvolvedores Precisam Saber
De bugs de passagem de imagens a adaptadores de canal mortos, visibilidade de arquivos de bloqueio e falta de coordenação paralela — quatro problemas que afetam a produção do repositório OpenClaw (366k estrelas).

Análise: Comparando a Indústria de IA aos Padrões da Crise Hipotecária Subprime
A análise de Edward Zitron traça paralelos entre a crise de hipotecas subprime de 2008 e as tendências atuais da indústria de IA, citando dados específicos sobre hipotecas de taxa ajustável e suas semelhanças com os padrões de investimento em IA.

Joint Venture de US$10B da OpenAI: O Que Isso Significa para a Implantação de IA
OpenAI finaliza uma joint venture de US$ 10 bilhões com empresas de private equity para expandir a infraestrutura de IA e a implantação empresarial, conforme relatado pela Bloomberg.