Sarvam AI、30B/105BオープンソースLLMリリース

モデル仕様とアーキテクチャ

Sarvam 30BとSarvam 105Bは、事前学習、教師ありファインチューニング、強化学習の各段階で社内でキュレーションされた大規模で高品質なデータセットを使用してゼロからトレーニングされた推論モデルです。トレーニングは完全にインド国内で、インドAIミッションの下で提供されたコンピュートリソースを使用して実施されました。

両モデルは、トークンあたりの計算量を増やすことなくパラメータ数を拡張するために、スパースエキスパートルーティングを備えたMixture-of-Experts（MoE）Transformerバックボーンを採用しています。このアーキテクチャは、ロータリ位置埋め込み、RMSNormベースの安定化、推論時の効率的なKVキャッシュ使用のために最適化されたアテンションデザインを通じて、長文脈入力に対応しています。

Sarvam 30Bは、パフォーマンスを維持しながらKVキャッシュメモリを削減するためにGrouped Query Attention（GQA）を使用しています。Sarvam 105Bは、より深い層構造と、長文脈推論のメモリ要件を削減する圧縮アテンション形式であるMulti-head Latent Attention（MLA）を採用してアーキテクチャを拡張しています。両モデルは128のエキスパートを持つスパースエキスパートフィードフォワード層を使用していますが、エキスパート容量とルーティング構成が異なります。

トレーニングとデータ詳細

30Bモデルは16Tトークンでトレーニングされ、105Bモデルは12Tトークンでトレーニングされました。事前学習データは、コード、一般的なウェブデータ、専門知識コーパス、数学、多言語コンテンツをカバーし、特に10の最も話されているインドの言語に重点的に割り当てられています。

トレーニングでは、従来のソフトマックスゲーティングではなくシグモイドベースのルーティングスコアを使用しており、これによりエキスパートの負荷分散が改善され、ルーティングの崩壊が減少します。エキスパートバイアス項はルーティングダイナミクスを安定させ、トレーニングステップ全体でより均一なエキスパート使用を促進します。

事前学習は3つのフェーズで実施されました：長期的な事前学習、中間トレーニング、長文脈拡張フェーズです。105Bモデルはトレーニングの早い段階で30Bモデルを上回るベンチマーク性能を達成し、効率的なスケーリング特性を示唆しています。

性能とデプロイメント

Sarvam 105Bは、ベンチマーク全体で推論、プログラミング、エージェントタスクにおいて優れた性能を発揮します。Sarvam 30Bは、実世界の会話ユースケースで強力な性能を発揮するリアルタイムデプロイメント向けに最適化されています。両モデルはインド言語ベンチマークで最先端の結果を達成し、大幅に大きなモデルを上回る性能を示しています。

Sarvam 30Bは、Sarvamの会話エージェントプラットフォームであるSamvaadを駆動しています。Sarvam 105Bは、複雑な推論とエージェントワークフロー向けに構築されたAIアシスタントであるIndusを駆動しています。

アクセスと実装

重みはAI Kosh（30B、105B）とHugging Face（30B、105B）からダウンロードできます。Transformers、vLLM、SGLangを使用したローカル推論については、Hugging Faceモデルページのサンプル実装を参照してください。両モデルは、SarvamのAPIダッシュボードを通じてAPI経由でアクセス可能です。

📖 完全なソースを読む: HN LLM Tools