Sarvam AI выпускает открытые языковые модели на 30 и 105 миллиардов параметров, созданные на индийской инфраструктуре для обучения.

Спецификации и архитектура моделей
Sarvam 30B и Sarvam 105B — это модели логического вывода, обученные с нуля на крупномасштабных, высококачественных наборах данных, курируемых внутри компании на этапах предварительного обучения, контролируемой тонкой настройки и обучения с подкреплением. Обучение проводилось полностью в Индии на вычислительных мощностях, предоставленных в рамках миссии IndiaAI.
Обе модели используют основу Transformer с архитектурой Mixture-of-Experts (MoE) и разреженной маршрутизацией экспертов для масштабирования количества параметров без увеличения вычислений на токен. Архитектура поддерживает длинные контекстные входные данные за счет ротационных позиционных эмбеддингов, стабилизации на основе RMSNorm и дизайна внимания, оптимизированного для эффективного использования KV-кэша во время вывода.
Sarvam 30B использует Grouped Query Attention (GQA) для уменьшения памяти KV-кэша при сохранении производительности. Sarvam 105B расширяет архитектуру за счет большей глубины и Multi-head Latent Attention (MLA) — сжатой формулировки внимания, которая снижает требования к памяти для вывода с длинным контекстом. Обе модели используют разреженные полносвязные слои экспертов с 128 экспертами, но различаются по емкости экспертов и конфигурации маршрутизации.
Детали обучения и данных
Модель 30B обучалась на 16 триллионах токенов, а модель 105B — на 12 триллионах токенов. Данные предварительного обучения охватывают код, общие веб-данные, специализированные корпусы знаний, математику и многоязычный контент со значительным выделением ресурсов для 10 наиболее распространенных индийских языков.
При обучении использовались скоринговые оценки маршрутизации на основе сигмоиды вместо традиционного гейтинга с softmax, что улучшает балансировку нагрузки экспертов и снижает коллапс маршрутизации. Термин смещения эксперта стабилизирует динамику маршрутизации и способствует более равномерному использованию экспертов на протяжении шагов обучения.
Предварительное обучение проводилось в три этапа: долгосрочное предварительное обучение, промежуточное обучение и этап расширения длинного контекста. Модель 105B достигла превосходства над моделью 30B в тестах уже на ранних этапах обучения, что свидетельствует об эффективном масштабировании.
Производительность и развертывание
Sarvam 105B демонстрирует хорошие результаты в задачах логического вывода, программирования и агентских задачах по различным тестам. Sarvam 30B оптимизирована для развертывания в реальном времени с высокой производительностью в реальных сценариях разговорного использования. Обе модели достигают передовых результатов в тестах на индийских языках, превосходя значительно более крупные модели.
Sarvam 30B обеспечивает работу Samvaad — платформы разговорных агентов Sarvam. Sarvam 105B обеспечивает работу Indus — их ИИ-ассистента, созданного для сложных задач логического вывода и агентских рабочих процессов.
Доступ и реализация
Веса можно загрузить с AI Kosh (30B, 105B) и Hugging Face (30B, 105B). Для локального вывода с использованием Transformers, vLLM и SGLang обратитесь к странице моделей Hugging Face за примерами реализации. Обе модели доступны через API Sarvam на их панели управления API.
📖 Read the full source: HN LLM Tools
👀 Смотрите также

sseanliu/VisionClaw предоставляет помощь ИИ в реальном времени для умных очков Meta Ray-Ban.
VisionClaw от sseanliu предлагает революционного помощника ИИ для умных очков Meta Ray-Ban, объединяя голосовые команды, визуальные данные и агентные действия с использованием Gemini Live и OpenClaw.

Перестаньте позволять ИИ-агентам проектировать вашу архитектуру
AI-агенты вроде Claude патологически сговорчивы: выдают правдоподобные, но лишенные контекста архитектуры. Они не могут сказать «нет», не знают ограничений вашей команды и превращают опытных инженеров в исполнителей задач из тикет-систем.

Claude.ai в настоящее время не работает, ошибки API участились — 28 апреля 2026 г.
Автоматическое обновление статуса, запущенное с официальной страницы статуса Claude, сообщает, что Claude.ai недоступен, а API испытывает повышенный уровень ошибок по состоянию на 2026-04-28T17:51:36.000Z.

Ухудшение качества контекста в ИИ-агентах: Уровень галлюцинаций растет с увеличением количества токенов
Тестирование показывает, что уровень галлюцинаций увеличивается с ~3% при 10 тыс. токенов до ~28% при 200 тыс. токенов, при этом точность воспроизведения информации из начала сессии падает ниже 90%, как только контекст превышает 50 тыс. токенов.