NvidiaのNemotron 3 Super:1200億パラメーターモデル、推論時は120億パラメーターを活用

Nvidiaは、推論時に120億のパラメータのみを活性化する1200億パラメータモデル「Nemotron 3 Super」を発表しました。これは、約12Bモデルの計算コストで120Bモデルの知識を提供することで、大きなモデルが常に優れた結果をもたらすという前提に挑戦しています。このモデルは圧縮によって大きなモデルを近似しているのではなく、関連する場合に他の1080億のパラメータを利用可能にし、不要な場合はアイドル状態にする効率的なルーティングを学習した120Bモデルです。
アーキテクチャの決定
これを可能にする3つの重要なアーキテクチャ上の決定があります:
- LatentMoE: ルーティング前にトークンを圧縮された潜在空間に投影し、ルーティング決定をより安価にします。これにより、標準的なMoEと同じ推論コストで4倍の専門家を活性化できます。
- ハイブリッドMamba-Attention: 二次的に高価なトランスフォーマーアテンションの大部分をMamba-2に置き換え、100万トークンのコンテキストウィンドウを理論的ではなく実用的なものにします。100万トークンでRULERの91.75%の精度を達成します。
- マルチトークン予測: 1回のフォワードパスで複数の将来トークンを生成し、別のドラフトモデルを必要とせずに最大3倍速い実時間推論を可能にするネイティブな投機的デコードを提供します。これにより、前身モデルよりも5倍高いスループットを実現し、トークンあたり3倍以上のパラメータを活性化するモデルを上回ります。
より広範なトレンド
これは、このアーキテクチャアプローチの3つ目の独立した確認です。DeepSeek V3は、合計671Bパラメータと37B活性化パラメータでこれを初めて実証し、Llama 3 405B denseを上回りました。Qwen3-Coder-Nextは、合計80Bパラメータと推論時にわずか3Bの活性化パラメータで続き、SWE-Bench ProでClaude Sonnet 4.5と同等の性能を発揮し、トークンあたり37Bを活性化するDeepSeek V3を上回りました。効率性の向上はトレードオフではなく複合的なものであり、各アーキテクチャ上の決定は、密なアテンションよりもスケールからより多くの恩恵を受け、このアーキテクチャと密なトランスフォーマーの間のギャップはモデルがスケールするにつれて拡大します。
これら3つの独立したリリースから得られる重要な洞察は、能力への道はより多くの活性化ではなく、より良いルーティングにあるということです。パラメータ数のリーダーボードは引き続き数値を公開しますが、トークンあたりの活性化パラメータは、モデルの効率性と性能を比較するためのより誠実な指標になりつつあります。
📖 Read the full source: r/LocalLLaMA
👀 See Also

Meta OpenEnv AIハッカソン in インド、直接面接と3万ドルの賞金総額を提供
Metaは、Hugging FaceおよびPyTorchと協力して、インド初のOpenEnv AIハッカソンを開催します。開発者は、AIエージェント向けの強化学習環境を構築します。上位チームはMetaおよびHugging FaceのAIチームとの直接面接の機会と、30,000ドルの賞金プールを獲得できます。

コーディングエージェント依存の長期的リスクに関するReddit議論
あるRedditユーザーは、Claude CodeやCopilotのような現在のコーディングエージェントが、ベンダーロックイン、ソフトウェア作成の中央集権化、エンジニアリングの職人技の商品化につながる依存関係を生み出す可能性があると主張しています。

サルヴァムAIが、インドのトレーニングインフラを活用して30Bと105BのオープンソースLLMをリリースしました。
Sarvam AIは、インドAIミッションの下で提供されたコンピュートリソースを使用してインドでゼロからトレーニングされた2つの推論モデル、Sarvam 30BとSarvam 105Bをオープンソース化しました。両モデルはスパースエキスパートルーティングを備えたMixture-of-Expertsアーキテクチャを採用し、GPUからノートパソコンまでの幅広いハードウェアで効率的なデプロイメントを実現するように最適化されています。

FFmpeg開発者、MagicYUV問題でOxideAVのAIライセンス不正利用を非難
FFmpeg開発者がOxideAVのmagicyuvリポジトリに問題を提起し、プロジェクトのライセンスに異議を唱え、GPLコードのAI支援によるライセンスロンダリングを主張しました。