NVIDIA Lança Nemotron-3-Ultra-550B: 55B Parâmetros Ativos, 1M de Contexto, Híbrido LatentMoE

✍️ OpenClawRadar📅 Publicado: June 4, 2026🔗 Source
NVIDIA Lança Nemotron-3-Ultra-550B: 55B Parâmetros Ativos, 1M de Contexto, Híbrido LatentMoE
Ad

A NVIDIA lançou o Nemotron-3-Ultra-550B-A55B-BF16, um LLM de última geração com 550B parâmetros totais e 55B ativos. O modelo usa uma arquitetura híbrida Latent Mixture-of-Experts (LatentMoE) que intercala camadas Mamba-2, MoE e atenção, além de Previsão de Múltiplos Tokens (MTP) para geração mais rápida. O comprimento do contexto chega a até 1M tokens.

Ad

Principais Especificações

  • Arquitetura: LatentMoE híbrido – Mamba-2 + MoE + Attention + MTP
  • Parâmetros: 550B total / 55B ativos
  • Contexto: Até 1M tokens
  • GPU mínima: 8x GB200/B200/GB300/B300, 16x H100, 8x H200
  • Idiomas: Inglês, Francês, Espanhol, Italiano, Alemão, Japonês, Coreano, Hindi, Português Brasileiro, Chinês
  • Raciocínio: Configurável on/off via template de chat (enable_thinking=True/False)
  • Licença: OpenMDW License Agreement v1.1

O modelo é construído para raciocínio de ponta, fluxos de trabalho agentivos complexos, análise de contexto longo, uso de ferramentas, raciocínio multilíngue e RAG de alto risco. É treinado com receita de pré-treinamento NVFP4 para eficiência computacional. Pesos abertos, dados de treinamento e receitas estão incluídos sob a licença OpenMDW. Para inferência local, você precisará de pelo menos 8x H200 ou equivalente.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Claude Code Gera Script Python que Encontra Recorde de Emirp com 10.069 Dígitos
News

Claude Code Gera Script Python que Encontra Recorde de Emirp com 10.069 Dígitos

O Claude Code, usando o modelo Opus 4.6 da Anthropic, gerou um script em Python que descobriu um emirp (número primo reversível) de 10.069 dígitos em aproximadamente um dia de tempo de CPU, quebrando o recorde mundial anterior. O script usa quatro níveis de peneiras de números primos, incluindo um kernel CUDA para geração rápida de números aleatórios.

OpenClawRadar
Discussão do OpenClaw sobre Mensagens entre Agentes de IA e Compartilhamento de Contexto
News

Discussão do OpenClaw sobre Mensagens entre Agentes de IA e Compartilhamento de Contexto

Uma discussão no Reddit explora as implicações de agentes de IA usando contexto pessoal para se comunicar com outros agentes em nome de um usuário, examinando quais informações os usuários podem se sentir confortáveis em compartilhar.

OpenClawRadar
Usuários do OpenClaw relatam altos custos de API devido a prompts vagos; desenvolvedor recomenda fluxos de trabalho estruturados.
News

Usuários do OpenClaw relatam altos custos de API devido a prompts vagos; desenvolvedor recomenda fluxos de trabalho estruturados.

Um usuário do Reddit relata uma conta de US$ 300 da Anthropic do OpenClaw devido a prompts vagos, com a comunidade observando que o orquestrador funciona melhor com intenções claras e fluxos de trabalho estruturados, em vez de atuar como um 'gênio' para pensamentos desejosos.

OpenClawRadar
Modelos de LLM de código aberto superam o Claude Opus 4.6 na geração de estratégias de negociação com custo mais baixo
News

Modelos de LLM de código aberto superam o Claude Opus 4.6 na geração de estratégias de negociação com custo mais baixo

Um usuário do Reddit testou 10 LLMs na geração de estratégias de trading, descobrindo que modelos de código aberto superaram o Claude Opus 4.6, apesar de serem 10 vezes mais baratos. Minimax 2.5 e Gemini 3.1 lideraram o ranking.

OpenClawRadar