Sarvam AI veröffentlicht 30B und 105B Open-Source-LLMs mit indischer Trainingsinfrastruktur.

Modellspezifikationen und Architektur
Sarvam 30B und Sarvam 105B sind Reasoning-Modelle, die von Grund auf auf groß angelegten, hochwertigen Datensätzen trainiert wurden, die intern über die Phasen Vorabtraining, überwachte Feinabstimmung und Reinforcement Learning kuratiert wurden. Das Training wurde vollständig in Indien auf Rechenleistung durchgeführt, die im Rahmen der IndiaAI-Mission bereitgestellt wurde.
Beide Modelle verwenden ein Mixture-of-Experts (MoE) Transformer-Grundgerüst mit sparsamem Expert-Routing, um die Parameteranzahl zu skalieren, ohne die Rechenleistung pro Token zu erhöhen. Die Architektur unterstützt langkontextige Eingaben durch rotierende Positions-Einbettungen, RMSNorm-basierte Stabilisierung und Attention-Designs, die für eine effiziente KV-Cache-Nutzung während der Inferenz optimiert sind.
Sarvam 30B verwendet Grouped Query Attention (GQA), um den KV-Cache-Speicher zu reduzieren und gleichzeitig die Leistung aufrechtzuerhalten. Sarvam 105B erweitert die Architektur mit größerer Tiefe und Multi-head Latent Attention (MLA), einer komprimierten Attention-Formulierung, die den Speicherbedarf für langkontextige Inferenz reduziert. Beide Modelle verwenden sparsame Expert-Feedforward-Schichten mit 128 Experten, unterscheiden sich jedoch in der Expertenkapazität und Routing-Konfiguration.
Trainings- und Datendetails
Das 30B-Modell wurde auf 16T Tokens trainiert, während das 105B-Modell auf 12T Tokens trainiert wurde. Die Vorabtrainingsdaten umfassen Code, allgemeine Webdaten, spezialisierte Wissenskorpora, Mathematik und mehrsprachige Inhalte mit einem erheblichen Anteil für die 10 am häufigsten gesprochenen indischen Sprachen.
Das Training verwendete sigmoidbasierte Routing-Scores anstelle traditioneller Softmax-Gating, was die Expertenlastverteilung verbessert und Routing-Kollaps reduziert. Ein Experten-Bias-Term stabilisiert die Routing-Dynamik und fördert eine gleichmäßigere Expertennutzung über die Trainingsschritte hinweg.
Das Vorabtraining wurde in drei Phasen durchgeführt: Langzeit-Vorabtraining, Mitteltraining und eine Langkontext-Erweiterungsphase. Das 105B-Modell erreichte früh im Training eine Benchmark-Überlegenheit gegenüber dem 30B-Modell, was auf ein effizientes Skalierungsverhalten hindeutet.
Leistung und Bereitstellung
Sarvam 105B schneidet bei Reasoning-, Programmier- und agentenbasierten Aufgaben über Benchmarks hinweg gut ab. Sarvam 30B ist für die Echtzeit-Bereitstellung optimiert und zeigt eine starke Leistung bei realen Konversationsanwendungsfällen. Beide Modelle erzielen state-of-the-art Ergebnisse bei indischen Sprach-Benchmarks und übertreffen deutlich größere Modelle.
Sarvam 30B treibt Samvaad an, Sarvams Konversationsagenten-Plattform. Sarvam 105B treibt Indus an, ihren KI-Assistenten, der für komplexes Reasoning und agentenbasierte Workflows entwickelt wurde.
Zugang und Implementierung
Die Gewichte können von AI Kosh (30B, 105B) und Hugging Face (30B, 105B) heruntergeladen werden. Für lokale Inferenz mit Transformers, vLLM und SGLang verweisen wir auf die Hugging Face Models-Seite für Beispielimplementierungen. Beide Modelle sind über Sarvams API auf ihrem API-Dashboard zugänglich.
📖 Read the full source: HN LLM Tools
👀 Siehe auch

Warum Die Open-Source-Architektur von OpenClaw Wichtig Ist

Claude Code v2.1.132: Sanftes Herunterfahren bei SIGINT, MCP-Korrekturen und Überarbeitung der Terminalverarbeitung
Claude Code v2.1.132 behebt das Graceful Shutdown bei externem SIGINT, fügt die Umgebungsvariablen CLAUDE_CODE_SESSION_ID und CLAUDE_CODE_DISABLE_ALTERNATE_SCREEN hinzu, behebt MCP-Speicherlecks und Tool-Listing-Wiederholungen und löst Dutzende von Terminal-Grenzfällen in IDE-Terminals.

Claude-Code v2.1.108 fügt Steuerung der Prompt-Zwischenspeicherung, eine Zusammenfassungsfunktion und die Entdeckung von Slash-Befehlen hinzu.
Claude-Code v2.1.108 führt die Umgebungsvariablen ENABLE_PROMPT_CACHING_1H und FORCE_PROMPT_CACHING_5M zur Cache-TTL-Steuerung ein, fügt eine über /config oder /recap konfigurierbare Sitzungszusammenfassungsfunktion hinzu und ermöglicht dem Modell, integrierte Slash-Befehle über das Skill-Tool zu entdecken.

Claude Prompt Cache-Diagnose: Statistik-Thread zeigt 98,9 % Cache-Lesequote
Vor zwei Tagen veröffentlichte Claude Prompt-Cache-Diagnosen in der Console. Ein Entwickler berichtet von einer Cache-Lesequote von 98,9 %, wobei 80 % der Fehlversuche auf geänderte Nachrichten zurückzuführen sind.