Nemotron 3 Super 120B: Inferencia Activa de 12B Cómo Logra Eficiencia

Nvidia lanzó Nemotron 3 Super, un modelo de 120 mil millones de parámetros que activa solo 12 mil millones de parámetros durante la inferencia. Esto desafía la suposición de que los modelos más grandes siempre significan mejores resultados, al proporcionar el conocimiento de un modelo de 120B a un costo computacional aproximado de un modelo de 12B. El modelo no está aproximando uno más grande mediante compresión; es un modelo de 120B que aprendió a enrutar de manera eficiente, con los otros 108 mil millones de parámetros disponibles cuando son relevantes e inactivos cuando no lo son.

Decisiones Arquitectónicas

Tres decisiones arquitectónicas clave hacen esto posible:

LatentMoE: Proyecta tokens en un espacio latente comprimido antes del enrutamiento, haciendo que las decisiones de enrutamiento sean más económicas. Esto permite activar 4 veces más expertos por el mismo costo de inferencia que un MoE estándar.
Híbrido Mamba-Atención: Reemplaza la atención del transformador, que es cuadráticamente costosa, con Mamba-2 para la mayor parte del procesamiento de secuencias, haciendo que la ventana de contexto de 1 millón de tokens sea práctica en lugar de teórica. Logra un 91,75% de precisión en RULER con 1M tokens.
Predicción de Múltiples Tokens: Genera múltiples tokens futuros por pasada hacia adelante, proporcionando decodificación especulativa nativa hasta 3 veces más rápida en tiempo real sin necesidad de un modelo de borrador separado. Resulta en un rendimiento 5 veces mayor que su predecesor y supera a modelos que activan 3 veces más parámetros por token.

Tendencia Más Amplia

Esta es la tercera confirmación independiente de este enfoque arquitectónico. DeepSeek V3 lo demostró primero con 671B parámetros totales y 37B activos, superando a Llama 3 405B denso. Qwen3-Coder-Next siguió con 80B parámetros totales y solo 3B activos en la inferencia, igualando a Claude Sonnet 4.5 en SWE-Bench Pro y superando a DeepSeek V3, que activa 37B por token. Las ganancias de eficiencia se acumulan en lugar de compensarse; cada decisión arquitectónica se beneficia más de la escala que la atención densa, y la brecha entre esta arquitectura y los transformadores densos crece a medida que los modelos escalan.

La idea clave de estos tres lanzamientos independientes es que el camino hacia la capacidad no es más activación, sino un mejor enrutamiento. Si bien las clasificaciones de recuento de parámetros continuarán publicando números, los parámetros activos por token se están convirtiendo en la métrica más honesta para comparar la eficiencia y el rendimiento del modelo.

📖 Read the full source: r/LocalLLaMA

Nvidia's Nemotron 3 Super: Modelo de 120B Parámetros con Inferencia Activa de 12B

Decisiones Arquitectónicas

Tendencia Más Amplia

👀 Ver también

Títulos del Sistema de Prompts de Claude Code v2.1.139: Documentación de la Plataforma Claude en AWS, Seguridad de Resúmenes, Herramientas de PowerShell

Los 4,000 despidos de Block generan preocupaciones sobre el "lavado de IA"

Debate MCP vs Habilidades: Comprender los Roles y el Verdadero Problema de la Degradación del Contexto

Regresión de rendimiento de Claude Code diagnosticada: Configuración, no inteligencia del modelo