Nemotron-3 Ultra 550B : 55B actifs, 1M contexte, LatentMoE

NVIDIA a publié Nemotron-3-Ultra-550B-A55B-BF16, un LLM à l'échelle frontière avec 550B paramètres totaux et 55B actifs. Le modèle utilise une architecture hybride Latent Mixture-of-Experts (LatentMoE) qui entrelace les couches Mamba-2, MoE et d'attention, plus la prédiction multi-tokens (MTP) pour une génération plus rapide. La longueur de contexte atteint jusqu'à 1M tokens.

Spécifications clés

Architecture : LatentMoE hybride – Mamba-2 + MoE + Attention + MTP
Paramètres : 550B total / 55B actifs
Contexte : Jusqu'à 1M tokens
GPU minimum : 8x GB200/B200/GB300/B300, 16x H100, 8x H200
Langues : anglais, français, espagnol, italien, allemand, japonais, coréen, hindi, portugais brésilien, chinois
Raisonnement : Activable/désactivable via le modèle de chat (enable_thinking=True/False)
Licence : OpenMDW License Agreement v1.1

Le modèle est conçu pour le raisonnement de pointe, les workflows agentiques complexes, l'analyse de longs contextes, l'utilisation d'outils, le raisonnement multilingue et le RAG à enjeux élevés. Il est entraîné avec la recette de pré-entraînement NVFP4 pour l'efficacité computationnelle. Les poids ouverts, les données d'entraînement et les recettes sont inclus sous la licence OpenMDW. Pour l'inférence locale, vous aurez besoin d'au moins 8x H200 ou équivalent.

📖 Lire la source complète : r/LocalLLaMA

NVIDIA dévoile Nemotron-3-Ultra-550B : 55B paramètres actifs, contexte 1M, hybride LatentMoE

Spécifications clés

👀 See Also

Comparaison des performances de Qwen3-30B-A3B et Qwen3.5-35B-A3B sur RTX 5090

OpenClaw : Expérience décevante ou erreur de configuration ?

Allbirds passe de la chaussure aux infrastructures d'IA, ses actions bondissent de 580 %

Claude AI signale des erreurs accrues sur plusieurs plateformes