Nemotron-3 Ultra 550B: 55B 활성, 1M 컨텍스트, LatentMoE

NVIDIA가 Nemotron-3-Ultra-550B-A55B-BF16을 출시했습니다. 총 550B 파라미터 중 55B가 활성화되는 최첨단 LLM입니다. 이 모델은 Latent Mixture-of-Experts (LatentMoE) 하이브리드 아키텍처를 사용하며, Mamba-2, MoE, 어텐션 레이어를 혼합하고 다중 토큰 예측(MTP)으로 생성 속도를 높입니다. 컨텍스트 길이는 최대 100만 토큰입니다.

주요 사양

아키텍처: LatentMoE 하이브리드 – Mamba-2 + MoE + Attention + MTP
파라미터: 총 550B / 활성 55B
컨텍스트: 최대 100만 토큰
최소 GPU: 8x GB200/B200/GB300/B300, 16x H100, 8x H200
언어: 영어, 프랑스어, 스페인어, 이탈리아어, 독일어, 일본어, 한국어, 힌디어, 브라질 포르투갈어, 중국어
추론: 채팅 템플릿으로 온/오프 구성 가능 (enable_thinking=True/False)
라이선스: OpenMDW License Agreement v1.1

이 모델은 최첨단 추론, 복잡한 에이전트 워크플로, 장문 컨텍스트 분석, 도구 사용, 다국어 추론, 고위험 RAG에 적합합니다. 컴퓨팅 효율성을 위한 NVFP4 사전 학습 레시피로 훈련되었습니다. 오픈 웨이트, 학습 데이터, 레시피가 OpenMDW 라이선스에 포함되어 있습니다. 로컬 추론에는 최소 8x H200 또는 이에 준하는 장비가 필요합니다.

📖 전체 출처 읽기: r/LocalLLaMA

NVIDIA, Nemotron-3-Ultra-550B 출시: 550억 개의 활성 파라미터, 100만 컨텍스트, LatentMoE 하이브리드

주요 사양

👀 See Also

오케스트레이터: 프로세스보다 의도가 중요해야 하는 이유

클로드 코드 오퍼스 4.6, 이제 기본 컨텍스트 윈도우가 100만 토큰으로 확장

클로드 코드 v2.1.51이 통지 없이 100만 컨텍스트 요금제를 변경했습니다

Qwen3.6-27B가 단일 24GB GPU에서 실행, SWE-bench에서 기존 397B MoE 능가