Sarvam 30B & 105B 오픈소스 LLM 공개: 인도 훈련, MoE 아키텍처

모델 사양 및 아키텍처

Sarvam 30B와 Sarvam 105B는 사전 학습, 지도 미세 조정, 강화 학습 단계에 걸쳐 자체적으로 구축한 대규모 고품질 데이터셋을 바탕으로 처음부터 학습된 추론 모델입니다. 학습은 인도AI 미션 하에 제공된 컴퓨팅 자원을 활용하여 인도에서 전적으로 진행되었습니다.

두 모델 모두 희소 전문가 라우팅을 적용한 Mixture-of-Experts(MoE) Transformer 백본을 사용하여 토큰당 연산량을 늘리지 않으면서 매개변수 수를 확장합니다. 이 아키텍처는 회전 위치 임베딩, RMSNorm 기반 안정화, 추론 중 효율적인 KV 캐시 사용을 위해 최적화된 어텐션 설계를 통해 긴 문맥 입력을 지원합니다.

Sarvam 30B는 Grouped Query Attention(GQA)을 사용하여 성능을 유지하면서 KV 캐시 메모리를 줄입니다. Sarvam 105B는 더 깊은 구조와 Multi-head Latent Attention(MLA)을 통해 아키텍처를 확장했으며, MLA는 압축된 어텐션 형식으로 긴 문맥 추론 시 메모리 요구량을 줄입니다. 두 모델 모두 128개의 전문가를 가진 희소 전문가 피드포워드 레이어를 사용하지만, 전문가 용량과 라우팅 구성은 다릅니다.

학습 및 데이터 세부사항

30B 모델은 16T 토큰으로, 105B 모델은 12T 토큰으로 학습되었습니다. 사전 학습 데이터는 코드, 일반 웹 데이터, 전문 지식 코퍼스, 수학, 다국어 콘텐츠를 포함하며, 인도에서 가장 많이 사용되는 10개 언어에 상당한 비중을 할당했습니다.

학습에는 기존의 소프트맥스 게이팅 대신 시그모이드 기반 라우팅 점수를 사용하여 전문가 부하 분산을 개선하고 라우팅 붕괴를 줄였습니다. 전문가 편향 항목은 라우팅 역학을 안정화하고 학습 단계 전반에 걸쳐 더 균일한 전문가 활용을 장려합니다.

사전 학습은 장기적 사전 학습, 중간 학습, 긴 문맥 확장 단계의 세 단계로 진행되었습니다. 105B 모델은 학습 초기부터 30B 모델보다 벤치마크에서 우수한 성능을 보여 효율적인 확장성을 시사했습니다.

성능 및 배포

Sarvam 105B는 다양한 벤치마크에서 추론, 프로그래밍, 에이전트 작업에서 우수한 성능을 보입니다. Sarvam 30B는 실시간 배포에 최적화되어 있으며, 실제 대화형 사용 사례에서 강력한 성능을 발휘합니다. 두 모델 모두 인도 언어 벤치마크에서 최첨단 결과를 달성하며, 훨씬 더 큰 모델들을 능가합니다.

Sarvam 30B는 Sarvam의 대화형 에이전트 플랫폼인 Samvaad을 구동합니다. Sarvam 105B는 복잡한 추론과 에이전트 워크플로우를 위해 구축된 AI 어시스턴트인 Indus를 구동합니다.

접근 및 구현

가중치는 AI Kosh(30B, 105B)와 Hugging Face(30B, 105B)에서 다운로드할 수 있습니다. Transformers, vLLM, SGLang을 사용한 로컬 추론을 위해서는 Hugging Face 모델 페이지의 샘플 구현을 참조하세요. 두 모델 모두 Sarvam의 API 대시보드를 통해 API로 접근할 수 있습니다.

📖 전체 출처 읽기: HN LLM Tools