Nemotron 3 4B vs Qwen 3.5 4B: ¿Cuál rinde mejor?

Resultados de la Comparación: Qwen 3.5 4B Supera a Nemotron 3 4B

Una comparación detallada entre Qwen 3.5 4B Q8 y Nemotron 3 4B Q8 revela diferencias significativas de rendimiento en tareas de razonamiento matemático y generación de salidas estructuradas.

Metodología de Prueba

La comparación consistió en cinco sub-tareas exigentes que requerían demostraciones matemáticas, aritmética modular, diseño de algoritmos y generación de texto multilingüe, todo envuelto en formato JSON válido. El prompt exacto solicitaba:

Definición y evaluación de S(n) = Σ(-1)^k C(n,k)/(k+1)^2 con forma cerrada en términos de H_{n+1}, evaluación en n=2026, y demostración de 8 líneas usando integrales
Cálculo de T = Σ[floor((17k+8)/29) - floor((17k-4)/29)] desde k=1 hasta 2026 con justificación modular
Algoritmo de Möbius + inclusión-exclusión para contar pares coprimos en un arreglo dinámico con pseudocódigo en exactamente 14 líneas (nombres de variables ≤8 caracteres)
Cálculo de C(4052, 2026) mod 7 usando el teorema de Lucas con conversión a base 7
Párrafo en portugués de exactamente 47 palabras que contenga "Möbius", "inclusão-exclusão" y "Lucas", terminando con "fim."

Desglose de Resultados

Qwen 3.5 4B Q8 (correcto): Produjo JSON válido con todas las sub-tareas completadas correctamente. Las demostraciones matemáticas fueron precisas, incluyendo:

{
  "A": {
    "closed_form": "H_{n+1}/(n+1)",
    "value_2026": "H_{2027}/2027",
    "proof_8_lines": "S(n) = sum (-1)^k C(n,k) int_0^1 x^k(-ln x)dx\nSwap sum and integral: -int_0^1 ln(x)(1-x)^n dx\nLet u=1-x: S(n) = -int_0^1 u^n ln(1-u) du\nUsing identity int_0^1 x^n ln(1-x)dx = -H_{n+1}/(n+1)\nWe find S(n) = H_{n+1}/(n+1) for all n>=0\nFor n=2026, value is H_{2027}/2027 exactly.\nQED."
  },
  "B": {
    "value": 838,
    "justification": "Difference is 1 iff (17k-4) mod 29 >= 17. gcd(17,29)=1 so residues cycle every 29 terms. Per period, 12 values qualify. 2026 = 69*29 + 25. Full periods: 69*12=828. Remainder k=1..25: residues for k=26..29 include two >= 17, so remainder adds 10. Total: 838."
  }
}

Nemotron 3 4B Q8 (incorrecto): No logró producir razonamientos correctos y salidas estructuradas. Los problemas incluyeron:

Pasos de integrales distorsionados con sustituciones incorrectas en la demostración matemática
Pseudocódigo incompleto con símbolos de numeral como marcadores de posición en lugar de las 14 líneas requeridas
Párrafo en portugués truncado que termina a mitad de oración

{
  "C": {
    "pseudocodigo": [
      "read n",
      "a = []",
      "mu = [0]*(max+1)",
      "for i in range(n): a.append(int(input()))",
      "for x in a:",
      " for d in range(1,int(sqrt(x))):",
      " if x%d==0",
      " mu[d]+=1",
      " mu[x//d]-=1",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#",
      "#"
    ],
    "complexidade": "O(n√max)"
  }
}

Hallazgo Clave

La comparación revela que la ventaja arquitectónica de Nemotron 3 4B—soporte para ventanas de contexto más grandes—no se traduce en una mejor capacidad de razonamiento dentro de ese contexto. Aunque Nemotron teóricamente ofrece capacidad de contexto expandida, no logró ejecutar razonamientos matemáticos complejos y generación de salidas estructuradas que Qwen 3.5 4B manejó correctamente.

📖 Read the full source: r/LocalLLaMA

Nemotron 3 4B rinde menos que Qwen 3.5 4B en puntos de referencia exigentes.

Resultados de la Comparación: Qwen 3.5 4B Supera a Nemotron 3 4B

Metodología de Prueba

Desglose de Resultados

Hallazgo Clave

👀 Ver también

Codex Converses: El Sucesor de OpenClaw en la Automatización de IA

Codificadores de IA caminan con laptops abiertas para mantener agentes en funcionamiento

RTX 4090 vs H100 para el Ajuste Fino de Llama-3-8B: Una Comparación de Costo-Rendimiento

Uber agotó su presupuesto anual de Claude Code en 4 meses — Esto es lo que eso significa