LLM open-source 30B et 105B : Sarvam AI dévoile ses modèles

Spécifications et architecture des modèles

Sarvam 30B et Sarvam 105B sont des modèles de raisonnement entraînés à partir de zéro sur des ensembles de données à grande échelle et de haute qualité, organisés en interne à travers les étapes de pré-entraînement, de réglage fin supervisé et d'apprentissage par renforcement. L'entraînement a été entièrement réalisé en Inde sur des ressources de calcul fournies dans le cadre de la mission IndiaAI.

Les deux modèles utilisent une architecture Transformer de type Mixture-of-Experts (MoE) avec un routage d'experts épars pour augmenter le nombre de paramètres sans accroître le calcul par token. L'architecture prend en charge des entrées à contexte long grâce à des embeddings positionnels rotatifs, une stabilisation basée sur RMSNorm, et des conceptions d'attention optimisées pour une utilisation efficace du cache KV lors de l'inférence.

Sarvam 30B utilise l'attention Grouped Query (GQA) pour réduire la mémoire du cache KV tout en maintenant les performances. Sarvam 105B étend l'architecture avec une plus grande profondeur et Multi-head Latent Attention (MLA), une formulation d'attention compressée qui réduit les besoins en mémoire pour l'inférence à contexte long. Les deux modèles utilisent des couches feedforward d'experts épars avec 128 experts, mais diffèrent par la capacité des experts et la configuration du routage.

Détails sur l'entraînement et les données

Le modèle 30B a été entraîné sur 16 000 milliards de tokens, tandis que le modèle 105B a été entraîné sur 12 000 milliards de tokens. Les données de pré-entraînement couvrent du code, des données web générales, des corpus de connaissances spécialisées, des mathématiques et du contenu multilingue avec une allocation substantielle aux 10 langues indiennes les plus parlées.

L'entraînement a utilisé des scores de routage basés sur sigmoïde plutôt que sur la méthode traditionnelle de gating softmax, ce qui améliore l'équilibrage de charge des experts et réduit l'effondrement du routage. Un terme de biais d'expert stabilise la dynamique de routage et encourage une utilisation plus uniforme des experts à travers les étapes d'entraînement.

Le pré-entraînement a été réalisé en trois phases : pré-entraînement à long horizon, entraînement intermédiaire et une phase d'extension à contexte long. Le modèle 105B a atteint une supériorité de référence par rapport au modèle 30B tôt dans l'entraînement, suggérant un comportement d'échelle efficace.

Performances et déploiement

Sarvam 105B performe bien sur les tâches de raisonnement, de programmation et d'agentivité à travers les benchmarks. Sarvam 30B est optimisé pour un déploiement en temps réel avec de solides performances sur des cas d'usage conversationnels réels. Les deux modèles atteignent des résultats de pointe sur les benchmarks de langues indiennes, surpassant des modèles nettement plus grands.

Sarvam 30B alimente Samvaad, la plateforme d'agent conversationnel de Sarvam. Sarvam 105B alimente Indus, leur assistant IA conçu pour des workflows complexes de raisonnement et d'agentivité.

Accès et implémentation

Les poids peuvent être téléchargés depuis AI Kosh (30B, 105B) et Hugging Face (30B, 105B). Pour une inférence locale avec Transformers, vLLM et SGLang, consultez la page des modèles Hugging Face pour des exemples d'implémentation. Les deux modèles sont accessibles via l'API de Sarvam sur leur tableau de bord API.

📖 Lire la source complète : HN LLM Tools