Nemotron 3 Super: 120B Parâmetros, 12B Ativos na Inferência

A Nvidia lançou o Nemotron 3 Super, um modelo de 120 bilhões de parâmetros que ativa apenas 12 bilhões de parâmetros durante a inferência. Isso desafia a suposição de que modelos maiores sempre significam melhores resultados, fornecendo conhecimento de um modelo de 120B com aproximadamente o custo computacional de um modelo de 12B. O modelo não está aproximando um maior por meio de compressão – é um modelo de 120B que aprendeu a rotear com eficiência, com os outros 108 bilhões de parâmetros disponíveis quando relevantes e inativos quando não são.

Decisões Arquiteturais

Três decisões arquiteturais-chave tornam isso possível:

LatentMoE: Projeta tokens em um espaço latente comprimido antes do roteamento, tornando as decisões de roteamento mais baratas. Isso permite ativar 4x mais especialistas pelo mesmo custo de inferência que o MoE padrão.
Híbrido Mamba-Atenção: Substitui a atenção do transformador quadraticamente cara por Mamba-2 para a maior parte do processamento de sequência, tornando a janela de contexto de 1 milhão de tokens prática em vez de teórica. Alcança 91,75% de precisão no RULER em 1M de tokens.
Predição Multi-Token: Gera múltiplos tokens futuros por passagem direta, fornecendo decodificação especulativa nativa até 3x mais rápida em tempo real sem precisar de um modelo de rascunho separado. Resulta em throughput 5x maior que seu antecessor e supera modelos que ativam 3x mais parâmetros por token.

Tendência Mais Ampla

Esta é a terceira confirmação independente dessa abordagem arquitetural. O DeepSeek V3 demonstrou isso primeiro com 671B de parâmetros totais e 37B ativos, superando o Llama 3 405B denso. O Qwen3-Coder-Next seguiu com 80B de parâmetros totais e apenas 3B ativos na inferência, igualando o Claude Sonnet 4.5 no SWE-Bench Pro e superando o DeepSeek V3, que ativa 37B por token. Os ganhos de eficiência se acumulam em vez de trocar – cada decisão arquitetural se beneficia mais da escala do que a atenção densa, e a lacuna entre essa arquitetura e os transformadores densos cresce à medida que os modelos escalam.

A percepção-chave desses três lançamentos independentes é que o caminho para a capacidade não é mais ativação – é melhor roteamento. Enquanto os rankings de contagem de parâmetros continuarão publicando números, os parâmetros ativos por token estão se tornando a métrica mais honesta para comparar a eficiência e o desempenho do modelo.

📖 Read the full source: r/LocalLLaMA

Nvidia Nemotron 3 Super: Modelo de 120 Bilhões de Parâmetros com 12 Bilhões Ativos na Inferência

Decisões Arquiteturais

Tendência Mais Ampla

👀 See Also

Caos na proibição de exportação do Mythos/Fábula da Anthropic: a Brokenomics da IA

O modelo MiniMax M2.7 demonstra desempenho sólido como agente de codificação em IA

A Anthropic divide o controle de agentes remotos em Despacho e Controle Remoto com problemas de confiabilidade

Vazamento do Código-Fonte do Claude Revela Modo Anti-Destilação, Modo Disfarçado e Detecção de Frustração