Nvidia's Nemotron 3 Super: Modelo de 120B Parámetros con Inferencia Activa de 12B

Nvidia lanzó Nemotron 3 Super, un modelo de 120 mil millones de parámetros que activa solo 12 mil millones de parámetros durante la inferencia. Esto desafía la suposición de que los modelos más grandes siempre significan mejores resultados, al proporcionar el conocimiento de un modelo de 120B a un costo computacional aproximado de un modelo de 12B. El modelo no está aproximando uno más grande mediante compresión; es un modelo de 120B que aprendió a enrutar de manera eficiente, con los otros 108 mil millones de parámetros disponibles cuando son relevantes e inactivos cuando no lo son.
Decisiones Arquitectónicas
Tres decisiones arquitectónicas clave hacen esto posible:
- LatentMoE: Proyecta tokens en un espacio latente comprimido antes del enrutamiento, haciendo que las decisiones de enrutamiento sean más económicas. Esto permite activar 4 veces más expertos por el mismo costo de inferencia que un MoE estándar.
- Híbrido Mamba-Atención: Reemplaza la atención del transformador, que es cuadráticamente costosa, con Mamba-2 para la mayor parte del procesamiento de secuencias, haciendo que la ventana de contexto de 1 millón de tokens sea práctica en lugar de teórica. Logra un 91,75% de precisión en RULER con 1M tokens.
- Predicción de Múltiples Tokens: Genera múltiples tokens futuros por pasada hacia adelante, proporcionando decodificación especulativa nativa hasta 3 veces más rápida en tiempo real sin necesidad de un modelo de borrador separado. Resulta en un rendimiento 5 veces mayor que su predecesor y supera a modelos que activan 3 veces más parámetros por token.
Tendencia Más Amplia
Esta es la tercera confirmación independiente de este enfoque arquitectónico. DeepSeek V3 lo demostró primero con 671B parámetros totales y 37B activos, superando a Llama 3 405B denso. Qwen3-Coder-Next siguió con 80B parámetros totales y solo 3B activos en la inferencia, igualando a Claude Sonnet 4.5 en SWE-Bench Pro y superando a DeepSeek V3, que activa 37B por token. Las ganancias de eficiencia se acumulan en lugar de compensarse; cada decisión arquitectónica se beneficia más de la escala que la atención densa, y la brecha entre esta arquitectura y los transformadores densos crece a medida que los modelos escalan.
La idea clave de estos tres lanzamientos independientes es que el camino hacia la capacidad no es más activación, sino un mejor enrutamiento. Si bien las clasificaciones de recuento de parámetros continuarán publicando números, los parámetros activos por token se están convirtiendo en la métrica más honesta para comparar la eficiencia y el rendimiento del modelo.
📖 Read the full source: r/LocalLLaMA
👀 Ver también
Títulos del Sistema de Prompts de Claude Code v2.1.139: Documentación de la Plataforma Claude en AWS, Seguridad de Resúmenes, Herramientas de PowerShell
CC 2.1.139 (+2,248 tokens) añade documentos de referencia de Claude Platform en AWS con autenticación SigV4, resumen de conversaciones que preserva la seguridad, tabla de equivalencia de comandos Unix en PowerShell y varias mejoras en habilidades y prompts.

Los 4,000 despidos de Block generan preocupaciones sobre el "lavado de IA"
Block anunció 4,000 recortes de empleo que han despertado sospechas de AI-washing, con la historia generando 10 puntos y 3 comentarios en Hacker News.

Debate MCP vs Habilidades: Comprender los Roles y el Verdadero Problema de la Degradación del Contexto
Una publicación de Reddit aclara que MCP proporciona herramientas, autenticación y dirección de contexto para agentes de IA, mientras que las Habilidades son prompts reutilizables que definen el comportamiento del agente. El autor argumenta que ambos son necesarios e identifica la degradación del contexto como un problema crítico donde los agentes olvidan instrucciones.

Regresión de rendimiento de Claude Code diagnosticada: Configuración, no inteligencia del modelo
El informe post-mortem de Anthropic revela que la caída en el rendimiento de Claude Code fue causada por tres cambios en el producto — esfuerzo de razonamiento predeterminado, error de caché de sesión y verbosidad del prompt — no por una degradación del modelo. La reversión restauró el rendimiento.