Nvidia Nemotron 3 Super: Modelo de 120 Bilhões de Parâmetros com 12 Bilhões Ativos na Inferência

✍️ OpenClawRadar📅 Publicado: March 12, 2026🔗 Source
Nvidia Nemotron 3 Super: Modelo de 120 Bilhões de Parâmetros com 12 Bilhões Ativos na Inferência
Ad

A Nvidia lançou o Nemotron 3 Super, um modelo de 120 bilhões de parâmetros que ativa apenas 12 bilhões de parâmetros durante a inferência. Isso desafia a suposição de que modelos maiores sempre significam melhores resultados, fornecendo conhecimento de um modelo de 120B com aproximadamente o custo computacional de um modelo de 12B. O modelo não está aproximando um maior por meio de compressão – é um modelo de 120B que aprendeu a rotear com eficiência, com os outros 108 bilhões de parâmetros disponíveis quando relevantes e inativos quando não são.

Decisões Arquiteturais

Três decisões arquiteturais-chave tornam isso possível:

  • LatentMoE: Projeta tokens em um espaço latente comprimido antes do roteamento, tornando as decisões de roteamento mais baratas. Isso permite ativar 4x mais especialistas pelo mesmo custo de inferência que o MoE padrão.
  • Híbrido Mamba-Atenção: Substitui a atenção do transformador quadraticamente cara por Mamba-2 para a maior parte do processamento de sequência, tornando a janela de contexto de 1 milhão de tokens prática em vez de teórica. Alcança 91,75% de precisão no RULER em 1M de tokens.
  • Predição Multi-Token: Gera múltiplos tokens futuros por passagem direta, fornecendo decodificação especulativa nativa até 3x mais rápida em tempo real sem precisar de um modelo de rascunho separado. Resulta em throughput 5x maior que seu antecessor e supera modelos que ativam 3x mais parâmetros por token.
Ad

Tendência Mais Ampla

Esta é a terceira confirmação independente dessa abordagem arquitetural. O DeepSeek V3 demonstrou isso primeiro com 671B de parâmetros totais e 37B ativos, superando o Llama 3 405B denso. O Qwen3-Coder-Next seguiu com 80B de parâmetros totais e apenas 3B ativos na inferência, igualando o Claude Sonnet 4.5 no SWE-Bench Pro e superando o DeepSeek V3, que ativa 37B por token. Os ganhos de eficiência se acumulam em vez de trocar – cada decisão arquitetural se beneficia mais da escala do que a atenção densa, e a lacuna entre essa arquitetura e os transformadores densos cresce à medida que os modelos escalam.

A percepção-chave desses três lançamentos independentes é que o caminho para a capacidade não é mais ativação – é melhor roteamento. Enquanto os rankings de contagem de parâmetros continuarão publicando números, os parâmetros ativos por token estão se tornando a métrica mais honesta para comparar a eficiência e o desempenho do modelo.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Processo de Entrevista de Engenharia Habilitado por IA da Tolan
News

Processo de Entrevista de Engenharia Habilitado por IA da Tolan

A Tolan redesenhou sua entrevista de engenharia para refletir o trabalho diário com agentes de IA de codificação. Os candidatos têm algumas horas para construir um recurso a partir de uma especificação do Figma ou uma especificação curta, usando ferramentas de IA como Claude, Codex, Cursor ou Gemini.

OpenClawRadar
Qwen3.6-27B cabe em uma única GPU de 24 GB e supera o anterior 397B MoE no SWE-bench
News

Qwen3.6-27B cabe em uma única GPU de 24 GB e supera o anterior 397B MoE no SWE-bench

Qwen3.6-27B (Apache 2.0, contexto de 262K) roda em Q4_K_M com ~16,8GB, alcançando SWE-bench Verified 77,2 — superando o Qwen3.5-397B-A17B MoE (76,2). Usa atenção linear Gated DeltaNet com Preservation de Pensamento para fluxos de trabalho de agentes.

OpenClawRadar
A Índia, com a Sarvam e a Krutrim, desenvolve modelos de IA econômicos para necessidades locais.
News

A Índia, com a Sarvam e a Krutrim, desenvolve modelos de IA econômicos para necessidades locais.

As startups indianas Sarvam AI e Krutrim estão desenvolvendo modelos de IA soberanos otimizados para smartphones de baixo custo e redes de baixa largura de banda, com o modelo SarvamM de 24 bilhões de parâmetros da Sarvam treinado em 10 idiomas indianos.

OpenClawRadar
NVIDIA Lança CPU Vera para Cargas de Trabalho de IA Agêntica
News

NVIDIA Lança CPU Vera para Cargas de Trabalho de IA Agêntica

A NVIDIA lançou a CPU Vera, um processador projetado especificamente para cargas de trabalho de IA agentiva e aprendizado por reforço, afirmando ter desempenho 50% mais rápido e o dobro da eficiência em comparação com CPUs tradicionais de escala de rack.

OpenClawRadar