Sarvam AI lanza modelos de lenguaje de código abierto de 30B y 105B con infraestructura de entrenamiento india.

Especificaciones y arquitectura del modelo
Sarvam 30B y Sarvam 105B son modelos de razonamiento entrenados desde cero en conjuntos de datos de gran escala y alta calidad, curados internamente a lo largo de las etapas de preentrenamiento, ajuste fino supervisado y aprendizaje por refuerzo. El entrenamiento se realizó completamente en India con capacidad de cómputo proporcionada bajo la misión IndiaAI.
Ambos modelos utilizan una arquitectura Transformer de Mezcla de Expertos (MoE) con enrutamiento disperso de expertos para escalar el número de parámetros sin aumentar el cómputo por token. La arquitectura admite entradas de contexto largo mediante incrustaciones posicionales rotatorias, estabilización basada en RMSNorm y diseños de atención optimizados para un uso eficiente de la caché KV durante la inferencia.
Sarvam 30B utiliza Atención de Consulta Agrupada (GQA) para reducir la memoria de la caché KV manteniendo el rendimiento. Sarvam 105B amplía la arquitectura con mayor profundidad y Atención Latente de Múltiples Cabezas (MLA), una formulación de atención comprimida que reduce los requisitos de memoria para la inferencia de contexto largo. Ambos modelos utilizan capas de retroalimentación dispersas de expertos con 128 expertos, pero difieren en la capacidad de los expertos y la configuración de enrutamiento.
Detalles del entrenamiento y datos
El modelo de 30B se entrenó con 16T tokens, mientras que el modelo de 105B se entrenó con 12T tokens. Los datos de preentrenamiento abarcan código, datos web generales, corpus de conocimiento especializado, matemáticas y contenido multilingüe con una asignación sustancial a los 10 idiomas indios más hablados.
El entrenamiento utilizó puntuaciones de enrutamiento basadas en sigmoide en lugar de la compuerta softmax tradicional, lo que mejora el equilibrio de carga de los expertos y reduce el colapso del enrutamiento. Un término de sesgo de experto estabiliza la dinámica de enrutamiento y fomenta una utilización más uniforme de los expertos a lo largo de los pasos de entrenamiento.
El preentrenamiento se realizó en tres fases: preentrenamiento de horizonte largo, entrenamiento intermedio y una fase de extensión de contexto largo. El modelo de 105B logró superioridad en puntos de referencia sobre el modelo de 30B al inicio del entrenamiento, lo que sugiere un comportamiento de escalado eficiente.
Rendimiento y despliegue
Sarvam 105B tiene un buen rendimiento en tareas de razonamiento, programación y agentes en diversos puntos de referencia. Sarvam 30B está optimizado para despliegue en tiempo real con un rendimiento sólido en casos de uso conversacionales del mundo real. Ambos modelos logran resultados de vanguardia en puntos de referencia de idiomas indios, superando a modelos significativamente más grandes.
Sarvam 30B impulsa Samvaad, la plataforma de agentes conversacionales de Sarvam. Sarvam 105B impulsa Indus, su asistente de IA construido para flujos de trabajo complejos de razonamiento y agentes.
Acceso e implementación
Los pesos se pueden descargar desde AI Kosh (30B, 105B) y Hugging Face (30B, 105B). Para inferencia local con Transformers, vLLM y SGLang, consulte la página de modelos de Hugging Face para ver implementaciones de ejemplo. Ambos modelos son accesibles a través de la API de Sarvam en su panel de control de API.
📖 Read the full source: HN LLM Tools
👀 Ver también

Definir agentes de IA: La prueba de flujo de trabajo
Un debate en Reddit cuestiona si muchos productos de agentes de IA son esencialmente chatbots con una lista de tareas, proponiendo una prueba basada en su capacidad para completar flujos de trabajo a través de múltiples herramientas sin intervención manual.

OpenClaw 2026.4.29 roto – Degradar a 2026.2.6
OpenClaw versión 2026.4.29 está rota con errores aleatorios, CLI lenta, respuestas duplicadas. Vuelve a la versión 2026.2.6 para solucionarlo.

Diferencias entre usar Claude a través de GitHub Copilot y como una extensión de VS Code.
Explora las diferencias entre usar Claude AI a través de las sesiones objetivo de GitHub Copilot y como una extensión de VS Code, basándote en su integración y funcionalidad.

Estudio de ETH Zurich Cuestiona el Valor de los Archivos AGENTS.md para Agentes de IA de Programación
Una nueva investigación de ETH Zurich encuentra que los archivos AGENTS.md generados por LLM reducen el éxito de tareas de agentes de IA en un 3% y aumentan los costos de inferencia en más del 20%, mientras que los archivos escritos por humanos ofrecen solo ganancias marginales del 4% con aumentos de costos similares.