Sarvam 30B e 105B: LLMs de Código Aberto Treinados na Índia

Especificações e arquitetura do modelo

Os modelos Sarvam 30B e Sarvam 105B são modelos de raciocínio treinados do zero em conjuntos de dados em larga escala e de alta qualidade, curados internamente ao longo das etapas de pré-treinamento, ajuste fino supervisionado e aprendizado por reforço. O treinamento foi conduzido inteiramente na Índia com recursos computacionais fornecidos no âmbito da missão IndiaAI.

Ambos os modelos utilizam uma estrutura Transformer Mixture-of-Experts (MoE) com roteamento esparso de especialistas para escalar a contagem de parâmetros sem aumentar a computação por token. A arquitetura suporta entradas de contexto longo por meio de embeddings posicionais rotativos, estabilização baseada em RMSNorm e designs de atenção otimizados para uso eficiente do cache KV durante a inferência.

O Sarvam 30B utiliza Grouped Query Attention (GQA) para reduzir a memória do cache KV mantendo o desempenho. O Sarvam 105B estende a arquitetura com maior profundidade e Multi-head Latent Attention (MLA), uma formulação de atenção comprimida que reduz os requisitos de memória para inferência de contexto longo. Ambos os modelos utilizam camadas feedforward de especialistas esparsos com 128 especialistas, mas diferem na capacidade dos especialistas e na configuração de roteamento.

Detalhes de treinamento e dados

O modelo de 30B foi treinado em 16T tokens, enquanto o modelo de 105B foi treinado em 12T tokens. Os dados de pré-treinamento abrangem código, dados gerais da web, corpora de conhecimento especializado, matemática e conteúdo multilíngue com alocação substancial para as 10 línguas indianas mais faladas.

O treinamento utilizou pontuações de roteamento baseadas em sigmoide em vez da portagem softmax tradicional, o que melhora o balanceamento de carga dos especialistas e reduz o colapso do roteamento. Um termo de viés do especialista estabiliza a dinâmica de roteamento e incentiva uma utilização mais uniforme dos especialistas ao longo das etapas de treinamento.

O pré-treinamento foi conduzido em três fases: pré-treinamento de longo horizonte, treinamento intermediário e uma fase de extensão de contexto longo. O modelo de 105B alcançou superioridade em benchmarks sobre o modelo de 30B no início do treinamento, sugerindo um comportamento de escalonamento eficiente.

Desempenho e implantação

O Sarvam 105B tem bom desempenho em tarefas de raciocínio, programação e tarefas agentivas em benchmarks. O Sarvam 30B é otimizado para implantação em tempo real com forte desempenho em casos de uso conversacionais do mundo real. Ambos os modelos alcançam resultados de última geração em benchmarks de línguas indianas, superando modelos significativamente maiores.

O Sarvam 30B alimenta o Samvaad, a plataforma de agentes conversacionais da Sarvam. O Sarvam 105B alimenta o Indus, seu assistente de IA construído para fluxos de trabalho complexos de raciocínio e agentivos.

Acesso e implementação

Os pesos podem ser baixados do AI Kosh (30B, 105B) e do Hugging Face (30B, 105B). Para inferência local com Transformers, vLLM e SGLang, consulte a página de modelos do Hugging Face para implementações de exemplo. Ambos os modelos estão acessíveis via API da Sarvam em seu painel de API.

📖 Leia a fonte completa: HN LLM Tools

A Sarvam AI lança modelos de LLM de código aberto de 30B e 105B com infraestrutura de treinamento indiana.

Especificações e arquitetura do modelo

Detalhes de treinamento e dados

Desempenho e implantação

Acesso e implementação

👀 See Also

Cães Robôs com IA Implantados para Vigilância em Atlanta

Benchmarks Mostram que Modelos Destilados Igualam LLMs de Fronteira em Tarefas Estruturadas com Custo 10x Menor

Análise: Os custos reais de computação da Anthropic para usuários do Claude Code são muito mais baixos do que o valor de US$ 5 mil relatado.

Versão Gratuita do ChatGPT Workspace Agents Termina Hoje — Comparação com OpenClaw e Hermes