Nvidias Nemotron 3 Super: 120-Milliarden-Parameter-Modell mit 12 Milliarden aktiven Inferenzparametern

✍️ OpenClawRadar📅 Veröffentlicht: 12. März 2026🔗 Source
Nvidias Nemotron 3 Super: 120-Milliarden-Parameter-Modell mit 12 Milliarden aktiven Inferenzparametern
Ad

Nvidia hat Nemotron 3 Super veröffentlicht, ein Modell mit 120 Milliarden Parametern, das während der Inferenz nur 12 Milliarden Parameter aktiviert. Dies stellt die Annahme in Frage, dass größere Modelle immer bessere Ergebnisse liefern, indem es das Wissen eines 120-Milliarden-Modells zu etwa den Rechenkosten eines 12-Milliarden-Modells bietet. Das Modell approximiert kein größeres Modell durch Kompression – es ist ein 120-Milliarden-Modell, das gelernt hat, effizient zu routen, wobei die anderen 108 Milliarden Parameter verfügbar sind, wenn sie relevant sind, und inaktiv, wenn nicht.

Architekturentscheidungen

Drei wichtige Architekturentscheidungen machen dies möglich:

  • LatentMoE: Projiziert Tokens in einen komprimierten latenten Raum vor dem Routing, wodurch Routing-Entscheidungen günstiger werden. Dies ermöglicht die Aktivierung von 4x mehr Experten für die gleichen Inferenzkosten wie bei Standard-MoE.
  • Hybrid Mamba-Attention: Ersetzt die quadratisch teure Transformer-Attention durch Mamba-2 für die meiste Sequenzverarbeitung, wodurch das 1-Millionen-Token-Kontextfenster praktisch statt theoretisch wird. Erreicht 91,75 % Genauigkeit auf RULER bei 1M Tokens.
  • Multi-Token-Vorhersage: Generiert mehrere zukünftige Tokens pro Vorwärtsdurchlauf und bietet native spekulative Decodierung mit bis zu 3x schnellerer Echtzeit-Inferenz ohne separates Draft-Modell. Führt zu 5x höherem Durchsatz als sein Vorgänger und übertrifft Modelle, die 3x mehr Parameter pro Token aktivieren.
Ad

Breiterer Trend

Dies ist die dritte unabhängige Bestätigung dieses Architekturansatzes. DeepSeek V3 demonstrierte dies zuerst mit 671 Milliarden Gesamtparametern und 37 Milliarden aktiven, wobei es Llama 3 405B dicht übertraf. Qwen3-Coder-Next folgte mit 80 Milliarden Gesamtparametern und nur 3 Milliarden aktiven bei der Inferenz, was Claude Sonnet 4.5 auf SWE-Bench Pro entsprach und DeepSeek V3 übertraf, das 37 Milliarden pro Token aktiviert. Die Effizienzgewinne verstärken sich gegenseitig statt sich abzutauschen – jede Architekturentscheidung profitiert mehr von der Skalierung als dichte Attention, und die Lücke zwischen dieser Architektur und dichten Transformern wächst mit der Skalierung der Modelle.

Die zentrale Erkenntnis aus diesen drei unabhängigen Veröffentlichungen ist, dass der Weg zu Fähigkeiten nicht mehr Aktivierung ist – sondern besseres Routing. Während Parameterzahlen-Ranglisten weiterhin Zahlen veröffentlichen, werden aktive Parameter pro Token zur ehrlicheren Metrik für den Vergleich von Modelleffizienz und -leistung.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Super Micro-Mitgründer unter drei Angeklagten in KI-Technologie-Exportfall
Nachrichten

Super Micro-Mitgründer unter drei Angeklagten in KI-Technologie-Exportfall

Drei Personen, darunter der Mitbegründer von Super Micro Computer, Charles Liang, wurden von US-Behörden beschuldigt, einen Plan zur illegalen Ausfuhr von KI-Technologie nach China geschmiedet zu haben. Der Fall betrifft mutmaßliche Verstöße gegen Exportkontrollgesetze.

OpenClawRadar
KI-Codierungsagenten können Arbeitsabläufe fragmentieren und Aufmerksamkeit aufbrauchen, warnt Entwickler
Nachrichten

KI-Codierungsagenten können Arbeitsabläufe fragmentieren und Aufmerksamkeit aufbrauchen, warnt Entwickler

Ein 12 Jahre alter Webentwickler berichtet, dass die tägliche Nutzung von Claude Code zu Mikrounterbrechungen, Konzentrationsverlust und geistiger Erschöpfung führt – ohne messbare Produktivitätssteigerung.

OpenClawRadar
Handelsstrategie-Benchmark: Günstigere KI-Modelle übertreffen Claude Opus 4.6
Nachrichten

Handelsstrategie-Benchmark: Günstigere KI-Modelle übertreffen Claude Opus 4.6

Ein Benchmark testete 10 LLMs auf die Entwicklung von Handelsstrategien, wobei günstigere Modelle wie Minimax 2.5 und Gemini 3.1 trotz ihrer 10-fach höheren Kosten Claude Opus 4.6 übertrafen. Das Experiment wurde dreimal mit konsistenten Ergebnissen durchgeführt.

OpenClawRadar
Der Parameter "effort=low" von Claude Opus 4.6 unterscheidet sich von den Low-Reasoning-Modi anderer Anbieter.
Nachrichten

Der Parameter "effort=low" von Claude Opus 4.6 unterscheidet sich von den Low-Reasoning-Modi anderer Anbieter.

Der effort=low-Parameter von Claude Opus 4.6 steuert den allgemeinen Verhaltensaufwand, nicht nur die Denktiefe, anders als OpenAI's reasoning.effort=low oder Gemini's thinking_level=low. Dies führte dazu, dass Agenten weniger Tool-Aufrufe tätigten, weniger gründlich bei der Querverweisprüfung waren und Teile der Systemprompts zur Webrecherche ignorierten.

OpenClawRadar