Nvidia's Nemotron 3 Super: Modelo de 120B Parámetros con Inferencia Activa de 12B

✍️ OpenClawRadar📅 Publicado: 12 de marzo de 2026🔗 Source
Nvidia's Nemotron 3 Super: Modelo de 120B Parámetros con Inferencia Activa de 12B
Ad

Nvidia lanzó Nemotron 3 Super, un modelo de 120 mil millones de parámetros que activa solo 12 mil millones de parámetros durante la inferencia. Esto desafía la suposición de que los modelos más grandes siempre significan mejores resultados, al proporcionar el conocimiento de un modelo de 120B a un costo computacional aproximado de un modelo de 12B. El modelo no está aproximando uno más grande mediante compresión; es un modelo de 120B que aprendió a enrutar de manera eficiente, con los otros 108 mil millones de parámetros disponibles cuando son relevantes e inactivos cuando no lo son.

Decisiones Arquitectónicas

Tres decisiones arquitectónicas clave hacen esto posible:

  • LatentMoE: Proyecta tokens en un espacio latente comprimido antes del enrutamiento, haciendo que las decisiones de enrutamiento sean más económicas. Esto permite activar 4 veces más expertos por el mismo costo de inferencia que un MoE estándar.
  • Híbrido Mamba-Atención: Reemplaza la atención del transformador, que es cuadráticamente costosa, con Mamba-2 para la mayor parte del procesamiento de secuencias, haciendo que la ventana de contexto de 1 millón de tokens sea práctica en lugar de teórica. Logra un 91,75% de precisión en RULER con 1M tokens.
  • Predicción de Múltiples Tokens: Genera múltiples tokens futuros por pasada hacia adelante, proporcionando decodificación especulativa nativa hasta 3 veces más rápida en tiempo real sin necesidad de un modelo de borrador separado. Resulta en un rendimiento 5 veces mayor que su predecesor y supera a modelos que activan 3 veces más parámetros por token.
Ad

Tendencia Más Amplia

Esta es la tercera confirmación independiente de este enfoque arquitectónico. DeepSeek V3 lo demostró primero con 671B parámetros totales y 37B activos, superando a Llama 3 405B denso. Qwen3-Coder-Next siguió con 80B parámetros totales y solo 3B activos en la inferencia, igualando a Claude Sonnet 4.5 en SWE-Bench Pro y superando a DeepSeek V3, que activa 37B por token. Las ganancias de eficiencia se acumulan en lugar de compensarse; cada decisión arquitectónica se beneficia más de la escala que la atención densa, y la brecha entre esta arquitectura y los transformadores densos crece a medida que los modelos escalan.

La idea clave de estos tres lanzamientos independientes es que el camino hacia la capacidad no es más activación, sino un mejor enrutamiento. Si bien las clasificaciones de recuento de parámetros continuarán publicando números, los parámetros activos por token se están convirtiendo en la métrica más honesta para comparar la eficiencia y el rendimiento del modelo.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Google's TimesFM 2.5: modelo de series temporales de 200M de parámetros con contexto de 16k
Noticias

Google's TimesFM 2.5: modelo de series temporales de 200M de parámetros con contexto de 16k

Google Research lanzó TimesFM 2.5, un modelo base de solo decodificador con 200 millones de parámetros para pronóstico de series temporales, con una longitud de contexto de 16k y pronóstico de cuantiles continuos hasta un horizonte de 1k.

OpenClawRadar
OpenAI y PNNL presentan DraftNEPABench para agentes de codificación de IA en permisos federales.
Noticias

OpenAI y PNNL presentan DraftNEPABench para agentes de codificación de IA en permisos federales.

OpenAI y el Laboratorio Nacional del Noroeste del Pacífico han lanzado DraftNEPABench, un punto de referencia que evalúa cómo los agentes de codificación con IA pueden acelerar los permisos federales. Los resultados iniciales muestran el potencial de reducir el tiempo de redacción de NEPA hasta en un 15%.

OpenClawRadar
Por qué los abogados siguen citando casos alucinados por IA: La perspectiva de un desarrollador
Noticias

Por qué los abogados siguen citando casos alucinados por IA: La perspectiva de un desarrollador

Más de 1,400 casos judiciales citan precedentes inventados por IA. Los abogados siguen confiando en las alucinaciones a pesar de las sanciones. Cómo el sesgo de automatización socava el juicio profesional.

OpenClawRadar
MCP también funciona con modelos locales: el ecosistema de servidores madura rápidamente
Noticias

MCP también funciona con modelos locales: el ecosistema de servidores madura rápidamente

MCP no es exclusivo de Claude. Los modelos locales con capacidad de llamada a funciones funcionan bien. Open Web UI ahora tiene un cliente MCP básico. Los modelos de 13B+ manejan mejor las herramientas de múltiples pasos.

OpenClawRadar