Sarvam 30B und 105B Open-Source-LLMs: Indische KI vs. globale Modelle

Modellspezifikationen und Architektur

Sarvam 30B und Sarvam 105B sind Reasoning-Modelle, die von Grund auf auf groß angelegten, hochwertigen Datensätzen trainiert wurden, die intern über die Phasen Vorabtraining, überwachte Feinabstimmung und Reinforcement Learning kuratiert wurden. Das Training wurde vollständig in Indien auf Rechenleistung durchgeführt, die im Rahmen der IndiaAI-Mission bereitgestellt wurde.

Beide Modelle verwenden ein Mixture-of-Experts (MoE) Transformer-Grundgerüst mit sparsamem Expert-Routing, um die Parameteranzahl zu skalieren, ohne die Rechenleistung pro Token zu erhöhen. Die Architektur unterstützt langkontextige Eingaben durch rotierende Positions-Einbettungen, RMSNorm-basierte Stabilisierung und Attention-Designs, die für eine effiziente KV-Cache-Nutzung während der Inferenz optimiert sind.

Sarvam 30B verwendet Grouped Query Attention (GQA), um den KV-Cache-Speicher zu reduzieren und gleichzeitig die Leistung aufrechtzuerhalten. Sarvam 105B erweitert die Architektur mit größerer Tiefe und Multi-head Latent Attention (MLA), einer komprimierten Attention-Formulierung, die den Speicherbedarf für langkontextige Inferenz reduziert. Beide Modelle verwenden sparsame Expert-Feedforward-Schichten mit 128 Experten, unterscheiden sich jedoch in der Expertenkapazität und Routing-Konfiguration.

Trainings- und Datendetails

Das 30B-Modell wurde auf 16T Tokens trainiert, während das 105B-Modell auf 12T Tokens trainiert wurde. Die Vorabtrainingsdaten umfassen Code, allgemeine Webdaten, spezialisierte Wissenskorpora, Mathematik und mehrsprachige Inhalte mit einem erheblichen Anteil für die 10 am häufigsten gesprochenen indischen Sprachen.

Das Training verwendete sigmoidbasierte Routing-Scores anstelle traditioneller Softmax-Gating, was die Expertenlastverteilung verbessert und Routing-Kollaps reduziert. Ein Experten-Bias-Term stabilisiert die Routing-Dynamik und fördert eine gleichmäßigere Expertennutzung über die Trainingsschritte hinweg.

Das Vorabtraining wurde in drei Phasen durchgeführt: Langzeit-Vorabtraining, Mitteltraining und eine Langkontext-Erweiterungsphase. Das 105B-Modell erreichte früh im Training eine Benchmark-Überlegenheit gegenüber dem 30B-Modell, was auf ein effizientes Skalierungsverhalten hindeutet.

Leistung und Bereitstellung

Sarvam 105B schneidet bei Reasoning-, Programmier- und agentenbasierten Aufgaben über Benchmarks hinweg gut ab. Sarvam 30B ist für die Echtzeit-Bereitstellung optimiert und zeigt eine starke Leistung bei realen Konversationsanwendungsfällen. Beide Modelle erzielen state-of-the-art Ergebnisse bei indischen Sprach-Benchmarks und übertreffen deutlich größere Modelle.

Sarvam 30B treibt Samvaad an, Sarvams Konversationsagenten-Plattform. Sarvam 105B treibt Indus an, ihren KI-Assistenten, der für komplexes Reasoning und agentenbasierte Workflows entwickelt wurde.

Zugang und Implementierung

Die Gewichte können von AI Kosh (30B, 105B) und Hugging Face (30B, 105B) heruntergeladen werden. Für lokale Inferenz mit Transformers, vLLM und SGLang verweisen wir auf die Hugging Face Models-Seite für Beispielimplementierungen. Beide Modelle sind über Sarvams API auf ihrem API-Dashboard zugänglich.

📖 Read the full source: HN LLM Tools

Sarvam AI veröffentlicht 30B und 105B Open-Source-LLMs mit indischer Trainingsinfrastruktur.

Modellspezifikationen und Architektur

Trainings- und Datendetails

Leistung und Bereitstellung

Zugang und Implementierung

👀 Siehe auch

Warum Die Open-Source-Architektur von OpenClaw Wichtig Ist

Claude Code v2.1.132: Sanftes Herunterfahren bei SIGINT, MCP-Korrekturen und Überarbeitung der Terminalverarbeitung

Claude-Code v2.1.108 fügt Steuerung der Prompt-Zwischenspeicherung, eine Zusammenfassungsfunktion und die Entdeckung von Slash-Befehlen hinzu.

Claude Prompt Cache-Diagnose: Statistik-Thread zeigt 98,9 % Cache-Lesequote