Nemotron 120B : Inférence active 12B

Nvidia a dévoilé le Nemotron 3 Super, un modèle de 120 milliards de paramètres qui n'en active que 12 milliards lors de l'inférence. Cela remet en question l'idée selon laquelle des modèles plus grands produisent toujours de meilleurs résultats, en offrant les connaissances d'un modèle de 120 milliards pour un coût de calcul proche de celui d'un modèle de 12 milliards. Le modèle n'approxime pas un modèle plus grand par compression : c'est un modèle de 120 milliards qui a appris à router efficacement, les 108 milliards de paramètres restants étant disponibles quand c'est pertinent et inactifs quand ce n'est pas le cas.

Choix architecturaux

Trois décisions architecturales clés rendent cela possible :

LatentMoE : Projette les tokens dans un espace latent compressé avant le routage, ce qui rend les décisions de routage moins coûteuses. Cela permet d'activer 4 fois plus d'experts pour le même coût d'inférence qu'un MoE standard.
Hybrid Mamba-Attention : Remplace l'attention transformer, coûteuse de manière quadratique, par Mamba-2 pour la plupart des traitements de séquences, rendant la fenêtre de contexte d'un million de tokens pratique plutôt que théorique. Atteint une précision de 91,75 % sur RULER à 1 million de tokens.
Prédiction multi-tokens : Génère plusieurs tokens futurs par passe avant, offrant un décodage spéculatif natif jusqu'à 3 fois plus rapide en temps réel sans nécessiter de modèle de brouillon séparé. Résulte en un débit 5 fois supérieur à son prédécesseur et surpasse les modèles activant 3 fois plus de paramètres par token.

Tendance plus large

Il s'agit de la troisième confirmation indépendante de cette approche architecturale. DeepSeek V3 l'a d'abord démontré avec 671 milliards de paramètres totaux et 37 milliards actifs, surpassant le dense Llama 3 405B. Qwen3-Coder-Next a suivi avec 80 milliards de paramètres totaux et seulement 3 milliards actifs lors de l'inférence, égalant Claude Sonnet 4.5 sur SWE-Bench Pro et surpassant DeepSeek V3 qui active 37 milliards par token. Les gains d'efficacité se cumulent plutôt que de se compenser : chaque décision architecturale bénéficie davantage de l'échelle que l'attention dense, et l'écart entre cette architecture et les transformeurs denses s'accroît à mesure que les modèles évoluent.

L'idée clé de ces trois publications indépendantes est que la voie vers les capacités ne passe pas par plus d'activation, mais par un meilleur routage. Alors que les classements de nombre de paramètres continueront de publier des chiffres, les paramètres actifs par token deviennent une métrique plus honnête pour comparer l'efficacité et les performances des modèles.

📖 Read the full source: r/LocalLLaMA

Nvidia Nemotron 3 Super : un modèle de 120 milliards de paramètres avec une inférence active de 12 milliards

Choix architecturaux

Tendance plus large

👀 See Also

Les ingénieurs chinois en IA sont les nouveaux acteurs influents de la Silicon Valley

Claude Code 2.1.63 ajoute des commandes slash groupées, des hooks HTTP et des corrections de fuites mémoire.

Les Brokenomics de l'IA : Le chaos de l'interdiction d'exportation du mythe/fable d'Anthropic

NVIDIA dévoile Nemotron-3-Ultra-550B : 55B paramètres actifs, contexte 1M, hybride LatentMoE