Nvidia의 Nemotron 3 Super: 120B 파라미터 모델, 12B 활성 추론

✍️ OpenClawRadar📅 게시일: March 12, 2026🔗 Source
Nvidia의 Nemotron 3 Super: 120B 파라미터 모델, 12B 활성 추론
Ad

Nvidia는 추론 시에 120억 개의 파라미터만 활성화하는 1200억 파라미터 모델인 Nemotron 3 Super를 공개했습니다. 이는 1200억 규모 모델의 지식을 약 120억 규모 모델의 연산 비용으로 제공함으로써, 더 큰 모델이 항상 더 나은 결과를 의미한다는 가정에 도전합니다. 이 모델은 압축을 통해 더 큰 모델을 근사화하는 것이 아닙니다. 이는 효율적으로 라우팅하는 법을 배운 1200억 규모 모델로, 관련될 때는 다른 1080억 개의 파라미터를 사용할 수 있고, 관련되지 않을 때는 유휴 상태로 둡니다.

아키텍처 결정

세 가지 핵심 아키텍처 결정이 이를 가능하게 합니다:

  • LatentMoE: 라우팅 전에 토큰을 압축된 잠재 공간으로 투영하여 라우팅 결정을 더 저렴하게 만듭니다. 이를 통해 표준 MoE와 동일한 추론 비용으로 4배 더 많은 전문가를 활성화할 수 있습니다.
  • 하이브리드 맘바-어텐션: 대부분의 시퀀스 처리에 대해 2차적으로 비용이 많이 드는 트랜스포머 어텐션을 Mamba-2로 대체하여, 100만 토큰 컨텍스트 창을 이론적이 아닌 실용적으로 만듭니다. 100만 토큰에서 RULER 정확도 91.75%를 달성합니다.
  • 다중 토큰 예측: 순방향 패스당 여러 미래 토큰을 생성하여, 별도의 초안 모델 없이도 최대 3배 빠른 실제 추론 속도로 기본적인 추측 디코딩을 제공합니다. 이전 모델보다 5배 높은 처리량을 달성하며, 토큰당 3배 더 많은 파라미터를 활성화하는 모델들을 능가합니다.
Ad

더 넓은 추세

이는 이 아키텍처 접근 방식의 세 번째 독립적인 확인입니다. DeepSeek V3가 처음으로 총 6710억 파라미터와 370억 활성 파라미터로 이를 입증하며, Llama 3 405B 조밀 모델을 능가했습니다. Qwen3-Coder-Next는 총 800억 파라미터와 추론 시에 3억 활성 파라미터만으로 이어졌으며, SWE-Bench Pro에서 Claude Sonnet 4.5와 동등한 성능을 보이고 토큰당 370억 파라미터를 활성화하는 DeepSeek V3를 능가했습니다. 효율성 향상은 상쇄되지 않고 누적됩니다. 각 아키텍처 결정은 조밀 어텐션보다 규모 확장에서 더 많은 이점을 얻으며, 이 아키텍처와 조밀 트랜스포머 간의 격차는 모델 규모가 커질수록 증가합니다.

이 세 가지 독립적인 출시에서 얻은 핵심 통찰은 능력 향상의 길이 더 많은 활성화가 아니라 더 나은 라우팅이라는 것입니다. 파라미터 수 순위표는 계속해서 숫자를 발표하겠지만, 토큰당 활성 파라미터 수는 모델 효율성과 성능을 비교하는 더 정직한 지표가 되어가고 있습니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Claude-Code v2.1.79는 원격 제어 기능을 추가하고, 서브프로세스 중단 문제를 수정하며, 메모리 사용량을 개선했습니다.
News

Claude-Code v2.1.79는 원격 제어 기능을 추가하고, 서브프로세스 중단 문제를 수정하며, 메모리 사용량을 개선했습니다.

Claude-Code v2.1.79는 VSCode용 /remote-control 명령어를 도입하여 세션을 claude.ai/code로 연결하고, 하위 프로세스에서 claude -p가 멈추는 문제를 수정하며, 시작 시 메모리 사용량을 약 18MB 줄였습니다. 이번 릴리스는 Anthropic Console 인증을 위한 --console 플래그를 추가하고 API 타임아웃 처리를 개선했습니다.

OpenClawRadar
팔란티어의 AI 플랫폼, 미국 주도 조정 센터에서 가자지구 원조 추적에 활용
News

팔란티어의 AI 플랫폼, 미국 주도 조정 센터에서 가자지구 원조 추적에 활용

Palantir Technologies는 이스라엘 남부에 위치한 미국 주도의 민군 조정 센터에 상주 책상을 두고 있으며, 드론 감시와 데이터 통합을 통해 가자 지구로의 구호 물자 전달 및 배분을 추적하는 기술 아키텍처를 제공하고 있습니다.

OpenClawRadar
Tinfoil의 Modelwrap 기술로 모델 신원 증명하기
News

Tinfoil의 Modelwrap 기술로 모델 신원 증명하기

Tinfoil의 Modelwrap은 암호화된 커밋을 통해 추론 제공자가 주장하는 정확한 모델 가중치를 제공하도록 보장하며, 이를 보안 엔클레이브로 검증합니다.

OpenClawRadar
Claude Code v2.1.139:에이전트 뷰, /goal 명령어 및 MCP 주요 개선 사항 추가
News

Claude Code v2.1.139:에이전트 뷰, /goal 명령어 및 MCP 주요 개선 사항 추가

Claude Code v2.1.139는 세션 관리를 위한 새로운 에이전트 뷰, 멀티턴 작업을 위한 /goal 명령어, 확장된 훅 기능, MCP 서버 메모리 문제 및 터미널 손상 수정을 도입합니다.

OpenClawRadar