NVIDIA Lança Nemotron-3-Ultra-550B: 55B Parâmetros Ativos, 1M de Contexto, Híbrido LatentMoE

A NVIDIA lançou o Nemotron-3-Ultra-550B-A55B-BF16, um LLM de última geração com 550B parâmetros totais e 55B ativos. O modelo usa uma arquitetura híbrida Latent Mixture-of-Experts (LatentMoE) que intercala camadas Mamba-2, MoE e atenção, além de Previsão de Múltiplos Tokens (MTP) para geração mais rápida. O comprimento do contexto chega a até 1M tokens.
Principais Especificações
- Arquitetura: LatentMoE híbrido – Mamba-2 + MoE + Attention + MTP
- Parâmetros: 550B total / 55B ativos
- Contexto: Até 1M tokens
- GPU mínima: 8x GB200/B200/GB300/B300, 16x H100, 8x H200
- Idiomas: Inglês, Francês, Espanhol, Italiano, Alemão, Japonês, Coreano, Hindi, Português Brasileiro, Chinês
- Raciocínio: Configurável on/off via template de chat (
enable_thinking=True/False) - Licença: OpenMDW License Agreement v1.1
O modelo é construído para raciocínio de ponta, fluxos de trabalho agentivos complexos, análise de contexto longo, uso de ferramentas, raciocínio multilíngue e RAG de alto risco. É treinado com receita de pré-treinamento NVFP4 para eficiência computacional. Pesos abertos, dados de treinamento e receitas estão incluídos sob a licença OpenMDW. Para inferência local, você precisará de pelo menos 8x H200 ou equivalente.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Claude Code Gera Script Python que Encontra Recorde de Emirp com 10.069 Dígitos
O Claude Code, usando o modelo Opus 4.6 da Anthropic, gerou um script em Python que descobriu um emirp (número primo reversível) de 10.069 dígitos em aproximadamente um dia de tempo de CPU, quebrando o recorde mundial anterior. O script usa quatro níveis de peneiras de números primos, incluindo um kernel CUDA para geração rápida de números aleatórios.

Discussão do OpenClaw sobre Mensagens entre Agentes de IA e Compartilhamento de Contexto
Uma discussão no Reddit explora as implicações de agentes de IA usando contexto pessoal para se comunicar com outros agentes em nome de um usuário, examinando quais informações os usuários podem se sentir confortáveis em compartilhar.

Usuários do OpenClaw relatam altos custos de API devido a prompts vagos; desenvolvedor recomenda fluxos de trabalho estruturados.
Um usuário do Reddit relata uma conta de US$ 300 da Anthropic do OpenClaw devido a prompts vagos, com a comunidade observando que o orquestrador funciona melhor com intenções claras e fluxos de trabalho estruturados, em vez de atuar como um 'gênio' para pensamentos desejosos.

Modelos de LLM de código aberto superam o Claude Opus 4.6 na geração de estratégias de negociação com custo mais baixo
Um usuário do Reddit testou 10 LLMs na geração de estratégias de trading, descobrindo que modelos de código aberto superaram o Claude Opus 4.6, apesar de serem 10 vezes mais baratos. Minimax 2.5 e Gemini 3.1 lideraram o ranking.