Nemotron 3 4B rinde menos que Qwen 3.5 4B en puntos de referencia exigentes.

Resultados de la Comparación: Qwen 3.5 4B Supera a Nemotron 3 4B
Una comparación detallada entre Qwen 3.5 4B Q8 y Nemotron 3 4B Q8 revela diferencias significativas de rendimiento en tareas de razonamiento matemático y generación de salidas estructuradas.
Metodología de Prueba
La comparación consistió en cinco sub-tareas exigentes que requerían demostraciones matemáticas, aritmética modular, diseño de algoritmos y generación de texto multilingüe, todo envuelto en formato JSON válido. El prompt exacto solicitaba:
- Definición y evaluación de S(n) = Σ(-1)^k C(n,k)/(k+1)^2 con forma cerrada en términos de H_{n+1}, evaluación en n=2026, y demostración de 8 líneas usando integrales
- Cálculo de T = Σ[floor((17k+8)/29) - floor((17k-4)/29)] desde k=1 hasta 2026 con justificación modular
- Algoritmo de Möbius + inclusión-exclusión para contar pares coprimos en un arreglo dinámico con pseudocódigo en exactamente 14 líneas (nombres de variables ≤8 caracteres)
- Cálculo de C(4052, 2026) mod 7 usando el teorema de Lucas con conversión a base 7
- Párrafo en portugués de exactamente 47 palabras que contenga "Möbius", "inclusão-exclusão" y "Lucas", terminando con "fim."
Desglose de Resultados
Qwen 3.5 4B Q8 (correcto): Produjo JSON válido con todas las sub-tareas completadas correctamente. Las demostraciones matemáticas fueron precisas, incluyendo:
{
"A": {
"closed_form": "H_{n+1}/(n+1)",
"value_2026": "H_{2027}/2027",
"proof_8_lines": "S(n) = sum (-1)^k C(n,k) int_0^1 x^k(-ln x)dx\nSwap sum and integral: -int_0^1 ln(x)(1-x)^n dx\nLet u=1-x: S(n) = -int_0^1 u^n ln(1-u) du\nUsing identity int_0^1 x^n ln(1-x)dx = -H_{n+1}/(n+1)\nWe find S(n) = H_{n+1}/(n+1) for all n>=0\nFor n=2026, value is H_{2027}/2027 exactly.\nQED."
},
"B": {
"value": 838,
"justification": "Difference is 1 iff (17k-4) mod 29 >= 17. gcd(17,29)=1 so residues cycle every 29 terms. Per period, 12 values qualify. 2026 = 69*29 + 25. Full periods: 69*12=828. Remainder k=1..25: residues for k=26..29 include two >= 17, so remainder adds 10. Total: 838."
}
}
Nemotron 3 4B Q8 (incorrecto): No logró producir razonamientos correctos y salidas estructuradas. Los problemas incluyeron:
- Pasos de integrales distorsionados con sustituciones incorrectas en la demostración matemática
- Pseudocódigo incompleto con símbolos de numeral como marcadores de posición en lugar de las 14 líneas requeridas
- Párrafo en portugués truncado que termina a mitad de oración
{
"C": {
"pseudocodigo": [
"read n",
"a = []",
"mu = [0]*(max+1)",
"for i in range(n): a.append(int(input()))",
"for x in a:",
" for d in range(1,int(sqrt(x))):",
" if x%d==0",
" mu[d]+=1",
" mu[x//d]-=1",
"#",
"#",
"#",
"#",
"#",
"#",
"#"
],
"complexidade": "O(n√max)"
}
}
Hallazgo Clave
La comparación revela que la ventaja arquitectónica de Nemotron 3 4B—soporte para ventanas de contexto más grandes—no se traduce en una mejor capacidad de razonamiento dentro de ese contexto. Aunque Nemotron teóricamente ofrece capacidad de contexto expandida, no logró ejecutar razonamientos matemáticos complejos y generación de salidas estructuradas que Qwen 3.5 4B manejó correctamente.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Claude Code agrega entrada de voz con funcionalidad de pulsar para hablar.
Claude Code está implementando el modo de voz para aproximadamente el 5% de los usuarios inicialmente, con activación por pulsar y mantener la barra espaciadora. Los tokens de transcripción de voz no cuentan contra los límites de tasa y la función se incluye sin costo adicional.

Las herramientas de detección de IA impulsan a los estudiantes a usar la IA de manera defensiva, según un estudio
Las herramientas de detección de IA en la educación están provocando que los estudiantes escriban peor intencionalmente para evitar falsos positivos, y algunos estudiantes recurren a herramientas de IA de manera defensiva para verificar si su propia escritura será marcada.

Claude Code evolucionando hacia un sistema operativo de ingeniería en lugar de solo un chat de código de IA
Un debate en Reddit argumenta que Claude Code se está volviendo menos como un chat de IA para codificar y más como un sistema operativo de ingeniería con planificación, revisión de código, agentes en la nube y flujos de trabajo autónomos.

Lanzado Claude Code v2.1.37
Anthropic lanza una nueva version de Claude Code con mejoras y correcciones de errores.