Sarvam AI lance des LLM open-source de 30B et 105B avec une infrastructure d'entraînement indienne.

✍️ OpenClawRadar📅 Publié: March 7, 2026🔗 Source
Sarvam AI lance des LLM open-source de 30B et 105B avec une infrastructure d'entraînement indienne.
Ad

Spécifications et architecture des modèles

Sarvam 30B et Sarvam 105B sont des modèles de raisonnement entraînés à partir de zéro sur des ensembles de données à grande échelle et de haute qualité, organisés en interne à travers les étapes de pré-entraînement, de réglage fin supervisé et d'apprentissage par renforcement. L'entraînement a été entièrement réalisé en Inde sur des ressources de calcul fournies dans le cadre de la mission IndiaAI.

Les deux modèles utilisent une architecture Transformer de type Mixture-of-Experts (MoE) avec un routage d'experts épars pour augmenter le nombre de paramètres sans accroître le calcul par token. L'architecture prend en charge des entrées à contexte long grâce à des embeddings positionnels rotatifs, une stabilisation basée sur RMSNorm, et des conceptions d'attention optimisées pour une utilisation efficace du cache KV lors de l'inférence.

Sarvam 30B utilise l'attention Grouped Query (GQA) pour réduire la mémoire du cache KV tout en maintenant les performances. Sarvam 105B étend l'architecture avec une plus grande profondeur et Multi-head Latent Attention (MLA), une formulation d'attention compressée qui réduit les besoins en mémoire pour l'inférence à contexte long. Les deux modèles utilisent des couches feedforward d'experts épars avec 128 experts, mais diffèrent par la capacité des experts et la configuration du routage.

Ad

Détails sur l'entraînement et les données

Le modèle 30B a été entraîné sur 16 000 milliards de tokens, tandis que le modèle 105B a été entraîné sur 12 000 milliards de tokens. Les données de pré-entraînement couvrent du code, des données web générales, des corpus de connaissances spécialisées, des mathématiques et du contenu multilingue avec une allocation substantielle aux 10 langues indiennes les plus parlées.

L'entraînement a utilisé des scores de routage basés sur sigmoïde plutôt que sur la méthode traditionnelle de gating softmax, ce qui améliore l'équilibrage de charge des experts et réduit l'effondrement du routage. Un terme de biais d'expert stabilise la dynamique de routage et encourage une utilisation plus uniforme des experts à travers les étapes d'entraînement.

Le pré-entraînement a été réalisé en trois phases : pré-entraînement à long horizon, entraînement intermédiaire et une phase d'extension à contexte long. Le modèle 105B a atteint une supériorité de référence par rapport au modèle 30B tôt dans l'entraînement, suggérant un comportement d'échelle efficace.

Performances et déploiement

Sarvam 105B performe bien sur les tâches de raisonnement, de programmation et d'agentivité à travers les benchmarks. Sarvam 30B est optimisé pour un déploiement en temps réel avec de solides performances sur des cas d'usage conversationnels réels. Les deux modèles atteignent des résultats de pointe sur les benchmarks de langues indiennes, surpassant des modèles nettement plus grands.

Sarvam 30B alimente Samvaad, la plateforme d'agent conversationnel de Sarvam. Sarvam 105B alimente Indus, leur assistant IA conçu pour des workflows complexes de raisonnement et d'agentivité.

Accès et implémentation

Les poids peuvent être téléchargés depuis AI Kosh (30B, 105B) et Hugging Face (30B, 105B). Pour une inférence locale avec Transformers, vLLM et SGLang, consultez la page des modèles Hugging Face pour des exemples d'implémentation. Les deux modèles sont accessibles via l'API de Sarvam sur leur tableau de bord API.

📖 Lire la source complète : HN LLM Tools

Ad

👀 See Also

Les agents IA qui ne réduisent pas les coûts de maintenance submergeront votre équipe
News

Les agents IA qui ne réduisent pas les coûts de maintenance submergeront votre équipe

James Shore avance que doubler la vitesse de codage de l'IA sans réduire de moitié les coûts de maintenance entraîne une perte de productivité nette en quelques mois. Le modèle montre qu'un rendement de code 2x avec un coût de maintenance 2x par ligne conduit à une productivité pire que le point de départ après environ 5 mois.

OpenClawRadar
La communauté NVIDIA DGX Spark lance Spark Arena pour des benchmarks LLM reproductibles
News

La communauté NVIDIA DGX Spark lance Spark Arena pour des benchmarks LLM reproductibles

La communauté NVIDIA DGX Spark a lancé Spark Arena, un classement reproductible pour les performances des LLM à poids ouvert utilisant des outils et une méthodologie standardisés, avec les meilleurs résultats actuels incluant gpt-oss-120b et Qwen3-Coder-Next.

OpenClawRadar
Deezer rapporte que 44 % des téléchargements quotidiens sont de la musique générée par l'IA
News

Deezer rapporte que 44 % des téléchargements quotidiens sont de la musique générée par l'IA

Deezer a annoncé que les morceaux générés par l'IA représentent désormais 44 % de toute la nouvelle musique téléchargée sur sa plateforme, avec près de 75 000 pistes IA téléchargées quotidiennement. Le système de détection de l'entreprise étiquette ces morceaux, les retire des recommandations et démonétise 85 % des streams IA en raison de fraudes.

OpenClawRadar
Le verrouillage des fournisseurs d'IA s'intensifie : le changement de modèle coûte désormais plus cher que prévu
News

Le verrouillage des fournisseurs d'IA s'intensifie : le changement de modèle coûte désormais plus cher que prévu

Un sondage Zapier auprès de 542 dirigeants américains montre que 90 % pensaient pouvoir changer de fournisseur d'IA en moins de 4 semaines, mais 58 % des migrations réelles ont échoué ou ont pris beaucoup plus de temps. Parallèlement, OpenAI a augmenté le prix des tokens d'entrée de GPT-5.2 de 1,25 $ à 5,75 $, et Anthropic est passé à une tarification dynamique pour Claude Enterprise, ce qui pourrait doubler ou tripler les coûts pour les utilisateurs intensifs.

OpenClawRadar