Nemotron 3 Super: 120-Milliarden-Modell mit 12 Mrd. aktiven Parametern

Nvidia hat Nemotron 3 Super veröffentlicht, ein Modell mit 120 Milliarden Parametern, das während der Inferenz nur 12 Milliarden Parameter aktiviert. Dies stellt die Annahme in Frage, dass größere Modelle immer bessere Ergebnisse liefern, indem es das Wissen eines 120-Milliarden-Modells zu etwa den Rechenkosten eines 12-Milliarden-Modells bietet. Das Modell approximiert kein größeres Modell durch Kompression – es ist ein 120-Milliarden-Modell, das gelernt hat, effizient zu routen, wobei die anderen 108 Milliarden Parameter verfügbar sind, wenn sie relevant sind, und inaktiv, wenn nicht.

Architekturentscheidungen

Drei wichtige Architekturentscheidungen machen dies möglich:

LatentMoE: Projiziert Tokens in einen komprimierten latenten Raum vor dem Routing, wodurch Routing-Entscheidungen günstiger werden. Dies ermöglicht die Aktivierung von 4x mehr Experten für die gleichen Inferenzkosten wie bei Standard-MoE.
Hybrid Mamba-Attention: Ersetzt die quadratisch teure Transformer-Attention durch Mamba-2 für die meiste Sequenzverarbeitung, wodurch das 1-Millionen-Token-Kontextfenster praktisch statt theoretisch wird. Erreicht 91,75 % Genauigkeit auf RULER bei 1M Tokens.
Multi-Token-Vorhersage: Generiert mehrere zukünftige Tokens pro Vorwärtsdurchlauf und bietet native spekulative Decodierung mit bis zu 3x schnellerer Echtzeit-Inferenz ohne separates Draft-Modell. Führt zu 5x höherem Durchsatz als sein Vorgänger und übertrifft Modelle, die 3x mehr Parameter pro Token aktivieren.

Breiterer Trend

Dies ist die dritte unabhängige Bestätigung dieses Architekturansatzes. DeepSeek V3 demonstrierte dies zuerst mit 671 Milliarden Gesamtparametern und 37 Milliarden aktiven, wobei es Llama 3 405B dicht übertraf. Qwen3-Coder-Next folgte mit 80 Milliarden Gesamtparametern und nur 3 Milliarden aktiven bei der Inferenz, was Claude Sonnet 4.5 auf SWE-Bench Pro entsprach und DeepSeek V3 übertraf, das 37 Milliarden pro Token aktiviert. Die Effizienzgewinne verstärken sich gegenseitig statt sich abzutauschen – jede Architekturentscheidung profitiert mehr von der Skalierung als dichte Attention, und die Lücke zwischen dieser Architektur und dichten Transformern wächst mit der Skalierung der Modelle.

Die zentrale Erkenntnis aus diesen drei unabhängigen Veröffentlichungen ist, dass der Weg zu Fähigkeiten nicht mehr Aktivierung ist – sondern besseres Routing. Während Parameterzahlen-Ranglisten weiterhin Zahlen veröffentlichen, werden aktive Parameter pro Token zur ehrlicheren Metrik für den Vergleich von Modelleffizienz und -leistung.

📖 Read the full source: r/LocalLLaMA

Nvidias Nemotron 3 Super: 120-Milliarden-Parameter-Modell mit 12 Milliarden aktiven Inferenzparametern

Architekturentscheidungen

Breiterer Trend

👀 Siehe auch

Super Micro-Mitgründer unter drei Angeklagten in KI-Technologie-Exportfall

KI-Codierungsagenten können Arbeitsabläufe fragmentieren und Aufmerksamkeit aufbrauchen, warnt Entwickler

Handelsstrategie-Benchmark: Günstigere KI-Modelle übertreffen Claude Opus 4.6

Der Parameter "effort=low" von Claude Opus 4.6 unterscheidet sich von den Low-Reasoning-Modi anderer Anbieter.