NVIDIA, Nemotron-3-Ultra-550B 출시: 550억 개의 활성 파라미터, 100만 컨텍스트, LatentMoE 하이브리드

NVIDIA가 Nemotron-3-Ultra-550B-A55B-BF16을 출시했습니다. 총 550B 파라미터 중 55B가 활성화되는 최첨단 LLM입니다. 이 모델은 Latent Mixture-of-Experts (LatentMoE) 하이브리드 아키텍처를 사용하며, Mamba-2, MoE, 어텐션 레이어를 혼합하고 다중 토큰 예측(MTP)으로 생성 속도를 높입니다. 컨텍스트 길이는 최대 100만 토큰입니다.
주요 사양
- 아키텍처: LatentMoE 하이브리드 – Mamba-2 + MoE + Attention + MTP
- 파라미터: 총 550B / 활성 55B
- 컨텍스트: 최대 100만 토큰
- 최소 GPU: 8x GB200/B200/GB300/B300, 16x H100, 8x H200
- 언어: 영어, 프랑스어, 스페인어, 이탈리아어, 독일어, 일본어, 한국어, 힌디어, 브라질 포르투갈어, 중국어
- 추론: 채팅 템플릿으로 온/오프 구성 가능 (
enable_thinking=True/False) - 라이선스: OpenMDW License Agreement v1.1
이 모델은 최첨단 추론, 복잡한 에이전트 워크플로, 장문 컨텍스트 분석, 도구 사용, 다국어 추론, 고위험 RAG에 적합합니다. 컴퓨팅 효율성을 위한 NVFP4 사전 학습 레시피로 훈련되었습니다. 오픈 웨이트, 학습 데이터, 레시피가 OpenMDW 라이선스에 포함되어 있습니다. 로컬 추론에는 최소 8x H200 또는 이에 준하는 장비가 필요합니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

AI 탄수화물 계산 재현성 실패: 1장 사진에 27K 쿼리에서 429g 편차 발생
26,904개의 AI 쿼리를 4개 모델에 걸쳐 분석한 연구에서, Gemini 2.5 Pro가 단일 빠에야 사진에 대한 탄수화물 추정치를 55g에서 484g까지 다양하게 제시한 것으로 나타났다. 이는 잠재적으로 42.9U의 인슐린 변동을 의미한다. Claude는 중간 변동 계수가 2.4%에 불과했다.

메타, AI 에이전트 훈련을 위해 직원 컴퓨터 상호작용 추적 중
메타는 AI 모델이 업무를 자율적으로 수행할 수 있도록 훈련시키기 위해 미국 직원 컴퓨터에 마우스 움직임, 클릭, 키 입력을 포착하는 추적 소프트웨어를 설치하고 있습니다. 이 도구는 업무 관련 앱과 웹사이트에서 실행되며, 상황을 파악하기 위해 가끔 화면 스냅샷을 찍습니다.

클로드 AI, 기업 맞춤형 및 새로운 커넥터를 갖춘 Cowork 플러그인 업데이트 소개
클로드 AI가 Cowork 플러그인 업데이트를 발표하여 기업 관리자가 개인 플러그인 마켓플레이스를 생성하고 Google Workspace, Docusign, Apollo 등 다양한 도구에 대한 커넥터를 추가할 수 있게 되었습니다. 새로운 연구 프리뷰 기능을 통해 클로드가 Excel과 PowerPoint를 넘나들며 종단간 분석과 프레젠테이션 제작을 수행할 수 있습니다.

Claude Code v2.1.121: MCP alwaysLoad, 플러그인 정리, 터미널 스크롤 수정, 메모리 누수 패치
Claude Code v2.1.121은 MCP 서버에 alwaysLoad, 플러그인 prune 명령어, /skills의 입력 필터, PostToolUse 출력 교체, 터미널 스크롤 및 URL 수정, 그리고 다수의 이미지 처리 시 멀티 GB RSS 증가를 포함한 여러 메모리 누수 수정을 추가했습니다.