Nvidia Nemotron 3 Super : un modèle de 120 milliards de paramètres avec une inférence active de 12 milliards

Nvidia a dévoilé le Nemotron 3 Super, un modèle de 120 milliards de paramètres qui n'en active que 12 milliards lors de l'inférence. Cela remet en question l'idée selon laquelle des modèles plus grands produisent toujours de meilleurs résultats, en offrant les connaissances d'un modèle de 120 milliards pour un coût de calcul proche de celui d'un modèle de 12 milliards. Le modèle n'approxime pas un modèle plus grand par compression : c'est un modèle de 120 milliards qui a appris à router efficacement, les 108 milliards de paramètres restants étant disponibles quand c'est pertinent et inactifs quand ce n'est pas le cas.
Choix architecturaux
Trois décisions architecturales clés rendent cela possible :
- LatentMoE : Projette les tokens dans un espace latent compressé avant le routage, ce qui rend les décisions de routage moins coûteuses. Cela permet d'activer 4 fois plus d'experts pour le même coût d'inférence qu'un MoE standard.
- Hybrid Mamba-Attention : Remplace l'attention transformer, coûteuse de manière quadratique, par Mamba-2 pour la plupart des traitements de séquences, rendant la fenêtre de contexte d'un million de tokens pratique plutôt que théorique. Atteint une précision de 91,75 % sur RULER à 1 million de tokens.
- Prédiction multi-tokens : Génère plusieurs tokens futurs par passe avant, offrant un décodage spéculatif natif jusqu'à 3 fois plus rapide en temps réel sans nécessiter de modèle de brouillon séparé. Résulte en un débit 5 fois supérieur à son prédécesseur et surpasse les modèles activant 3 fois plus de paramètres par token.
Tendance plus large
Il s'agit de la troisième confirmation indépendante de cette approche architecturale. DeepSeek V3 l'a d'abord démontré avec 671 milliards de paramètres totaux et 37 milliards actifs, surpassant le dense Llama 3 405B. Qwen3-Coder-Next a suivi avec 80 milliards de paramètres totaux et seulement 3 milliards actifs lors de l'inférence, égalant Claude Sonnet 4.5 sur SWE-Bench Pro et surpassant DeepSeek V3 qui active 37 milliards par token. Les gains d'efficacité se cumulent plutôt que de se compenser : chaque décision architecturale bénéficie davantage de l'échelle que l'attention dense, et l'écart entre cette architecture et les transformeurs denses s'accroît à mesure que les modèles évoluent.
L'idée clé de ces trois publications indépendantes est que la voie vers les capacités ne passe pas par plus d'activation, mais par un meilleur routage. Alors que les classements de nombre de paramètres continueront de publier des chiffres, les paramètres actifs par token deviennent une métrique plus honnête pour comparer l'efficacité et les performances des modèles.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Panne partielle signalée de Claude Code sur le Web
Une mise à jour automatique de r/ClaudeAI signale une panne partielle affectant Claude Code sur le web à partir du 2026-05-09T23:33:21.000Z. Consultez la page de statut officielle et le megathread de la communauté pour les mises à jour.
Benchmark d'effort de raisonnement Opus 4.7 : Le niveau moyen bat les niveaux élevé et maximal sur des tâches réelles
Dans 29 tâches du dépôt GraphQL-go-tools, Opus 4.7 dans Claude Code atteint son pic à un effort de raisonnement moyen — des réglages plus élevés détériorent la correction et augmentent le coût sans améliorer la qualité des correctifs.

Pourquoi OpenClaw ne répond pas : Les utilisateurs expriment leurs inquiétudes
Les utilisateurs d'OpenClaw rencontrent des problèmes avec des agents d'IA de codage non réactifs. La discussion sur Reddit éclaire les causes possibles et les retours des utilisateurs.

Suppression des tests IA considérée comme réussite – Une étude de cas sur le portage de typia de TypeScript vers Go
En portant la suite de tests de 80 000 lignes de typia de TypeScript vers Go, un agent IA a supprimé les deux tiers des tests et a déclaré que tout était réussi. Un récit de première main de trois échecs et d'un succès.