Sarvam AI lanza modelos open source 30B y 105B con infraestructura india

Especificaciones y arquitectura del modelo

Sarvam 30B y Sarvam 105B son modelos de razonamiento entrenados desde cero en conjuntos de datos de gran escala y alta calidad, curados internamente a lo largo de las etapas de preentrenamiento, ajuste fino supervisado y aprendizaje por refuerzo. El entrenamiento se realizó completamente en India con capacidad de cómputo proporcionada bajo la misión IndiaAI.

Ambos modelos utilizan una arquitectura Transformer de Mezcla de Expertos (MoE) con enrutamiento disperso de expertos para escalar el número de parámetros sin aumentar el cómputo por token. La arquitectura admite entradas de contexto largo mediante incrustaciones posicionales rotatorias, estabilización basada en RMSNorm y diseños de atención optimizados para un uso eficiente de la caché KV durante la inferencia.

Sarvam 30B utiliza Atención de Consulta Agrupada (GQA) para reducir la memoria de la caché KV manteniendo el rendimiento. Sarvam 105B amplía la arquitectura con mayor profundidad y Atención Latente de Múltiples Cabezas (MLA), una formulación de atención comprimida que reduce los requisitos de memoria para la inferencia de contexto largo. Ambos modelos utilizan capas de retroalimentación dispersas de expertos con 128 expertos, pero difieren en la capacidad de los expertos y la configuración de enrutamiento.

Detalles del entrenamiento y datos

El modelo de 30B se entrenó con 16T tokens, mientras que el modelo de 105B se entrenó con 12T tokens. Los datos de preentrenamiento abarcan código, datos web generales, corpus de conocimiento especializado, matemáticas y contenido multilingüe con una asignación sustancial a los 10 idiomas indios más hablados.

El entrenamiento utilizó puntuaciones de enrutamiento basadas en sigmoide en lugar de la compuerta softmax tradicional, lo que mejora el equilibrio de carga de los expertos y reduce el colapso del enrutamiento. Un término de sesgo de experto estabiliza la dinámica de enrutamiento y fomenta una utilización más uniforme de los expertos a lo largo de los pasos de entrenamiento.

El preentrenamiento se realizó en tres fases: preentrenamiento de horizonte largo, entrenamiento intermedio y una fase de extensión de contexto largo. El modelo de 105B logró superioridad en puntos de referencia sobre el modelo de 30B al inicio del entrenamiento, lo que sugiere un comportamiento de escalado eficiente.

Rendimiento y despliegue

Sarvam 105B tiene un buen rendimiento en tareas de razonamiento, programación y agentes en diversos puntos de referencia. Sarvam 30B está optimizado para despliegue en tiempo real con un rendimiento sólido en casos de uso conversacionales del mundo real. Ambos modelos logran resultados de vanguardia en puntos de referencia de idiomas indios, superando a modelos significativamente más grandes.

Sarvam 30B impulsa Samvaad, la plataforma de agentes conversacionales de Sarvam. Sarvam 105B impulsa Indus, su asistente de IA construido para flujos de trabajo complejos de razonamiento y agentes.

Acceso e implementación

Los pesos se pueden descargar desde AI Kosh (30B, 105B) y Hugging Face (30B, 105B). Para inferencia local con Transformers, vLLM y SGLang, consulte la página de modelos de Hugging Face para ver implementaciones de ejemplo. Ambos modelos son accesibles a través de la API de Sarvam en su panel de control de API.

📖 Read the full source: HN LLM Tools

Sarvam AI lanza modelos de lenguaje de código abierto de 30B y 105B con infraestructura de entrenamiento india.

Especificaciones y arquitectura del modelo

Detalles del entrenamiento y datos

Rendimiento y despliegue

Acceso e implementación

👀 Ver también

Definir agentes de IA: La prueba de flujo de trabajo

OpenClaw 2026.4.29 roto – Degradar a 2026.2.6

Diferencias entre usar Claude a través de GitHub Copilot y como una extensión de VS Code.

Estudio de ETH Zurich Cuestiona el Valor de los Archivos AGENTS.md para Agentes de IA de Programación