Nemotron 3 4B rinde menos que Qwen 3.5 4B en puntos de referencia exigentes.

✍️ OpenClawRadar📅 Publicado: 19 de marzo de 2026🔗 Source
Nemotron 3 4B rinde menos que Qwen 3.5 4B en puntos de referencia exigentes.
Ad

Resultados de la Comparación: Qwen 3.5 4B Supera a Nemotron 3 4B

Una comparación detallada entre Qwen 3.5 4B Q8 y Nemotron 3 4B Q8 revela diferencias significativas de rendimiento en tareas de razonamiento matemático y generación de salidas estructuradas.

Metodología de Prueba

La comparación consistió en cinco sub-tareas exigentes que requerían demostraciones matemáticas, aritmética modular, diseño de algoritmos y generación de texto multilingüe, todo envuelto en formato JSON válido. El prompt exacto solicitaba:

  • Definición y evaluación de S(n) = Σ(-1)^k C(n,k)/(k+1)^2 con forma cerrada en términos de H_{n+1}, evaluación en n=2026, y demostración de 8 líneas usando integrales
  • Cálculo de T = Σ[floor((17k+8)/29) - floor((17k-4)/29)] desde k=1 hasta 2026 con justificación modular
  • Algoritmo de Möbius + inclusión-exclusión para contar pares coprimos en un arreglo dinámico con pseudocódigo en exactamente 14 líneas (nombres de variables ≤8 caracteres)
  • Cálculo de C(4052, 2026) mod 7 usando el teorema de Lucas con conversión a base 7
  • Párrafo en portugués de exactamente 47 palabras que contenga "Möbius", "inclusão-exclusão" y "Lucas", terminando con "fim."
Ad

Desglose de Resultados

Qwen 3.5 4B Q8 (correcto): Produjo JSON válido con todas las sub-tareas completadas correctamente. Las demostraciones matemáticas fueron precisas, incluyendo:

{
  "A": {
    "closed_form": "H_{n+1}/(n+1)",
    "value_2026": "H_{2027}/2027",
    "proof_8_lines": "S(n) = sum (-1)^k C(n,k) int_0^1 x^k(-ln x)dx\nSwap sum and integral: -int_0^1 ln(x)(1-x)^n dx\nLet u=1-x: S(n) = -int_0^1 u^n ln(1-u) du\nUsing identity int_0^1 x^n ln(1-x)dx = -H_{n+1}/(n+1)\nWe find S(n) = H_{n+1}/(n+1) for all n>=0\nFor n=2026, value is H_{2027}/2027 exactly.\nQED."
  },
  "B": {
    "value": 838,
    "justification": "Difference is 1 iff (17k-4) mod 29 >= 17. gcd(17,29)=1 so residues cycle every 29 terms. Per period, 12 values qualify. 2026 = 69*29 + 25. Full periods: 69*12=828. Remainder k=1..25: residues for k=26..29 include two >= 17, so remainder adds 10. Total: 838."
  }
}

Nemotron 3 4B Q8 (incorrecto): No logró producir razonamientos correctos y salidas estructuradas. Los problemas incluyeron:

  • Pasos de integrales distorsionados con sustituciones incorrectas en la demostración matemática
  • Pseudocódigo incompleto con símbolos de numeral como marcadores de posición en lugar de las 14 líneas requeridas
  • Párrafo en portugués truncado que termina a mitad de oración
{
  "C": {
    "pseudocodigo": [
      "read n",
      "a = []",
      "mu = [0]*(max+1)",
      "for i in range(n): a.append(int(input()))",
      "for x in a:",
      " for d in range(1,int(sqrt(x))):",
      " if x%d==0",
      " mu[d]+=1",
      " mu[x//d]-=1",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#"
    ],
    "complexidade": "O(n√max)"
  }
}

Hallazgo Clave

La comparación revela que la ventaja arquitectónica de Nemotron 3 4B—soporte para ventanas de contexto más grandes—no se traduce en una mejor capacidad de razonamiento dentro de ese contexto. Aunque Nemotron teóricamente ofrece capacidad de contexto expandida, no logró ejecutar razonamientos matemáticos complejos y generación de salidas estructuradas que Qwen 3.5 4B manejó correctamente.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también