DeepSeek-V4 Pro и Flash: 1,6 трлн параметров, 1M контекст

Компания DeepSeek AI опубликовала предварительную версию серии DeepSeek-V4 на Hugging Face. В состав вошли две языковые модели на основе смеси экспертов (MoE):

DeepSeek-V4-Pro: 1,6 триллиона параметров всего, 49 миллиардов активируется на токен
DeepSeek-V4-Flash: 284 миллиарда параметров всего, 13 миллиардов активируется на токен

Обе модели поддерживают длину контекста в один миллион токенов.

Архитектурные улучшения

Серия V4 представляет гибридный механизм внимания, объединяющий:

Сжатое разреженное внимание (CSA)
Сильно сжатое внимание (HCA)

При длине контекста в 1 млн токенов DeepSeek-V4-Pro требует лишь 27% FLOPs для инференса одного токена и 10% KV-кэша по сравнению с DeepSeek-V3.2.

Кроме того, модели включают Гиперсвязи с ограничением многообразия (mHC) для усиления остаточных связей, что повышает стабильность обучения.

Детали модели

Репозиторий: deepseek-ai/DeepSeek-V4-Pro на Hugging Face
Тэг пайплайна: text-generation
Класс AutoModel: AutoModelForCausalLM
Лицензия: MIT
Веса: шардированные safetensors, включая форматы BF16, F32, F8_E8M0, F8_E4M3 и INT8
Общее количество параметров из safetensors: ~862 миллиарда параметров (вероятно, сумма по всем экспертам)

Бенчмарки и эффективность

Технический отчет (еще не полностью опубликован) упоминает, что гибридное внимание значительно повышает эффективность работы с длинным контекстом. В режиме 1 млн токенов модель достигает снижения FLOPs на 73% и KV-кэша на 90% по сравнению с V3.2.

Для разработчиков, создающих приложения с длинным контекстом (например, анализ документов, понимание кодовой базы, многошаговые агенты), DeepSeek-V4 становится привлекательным выбором для преодоления ограничений длины контекста без пропорционального роста вычислительных затрат.

Для кого предназначено

Этот релиз ориентирован на разработчиков, создающих AI-агенты, которым необходимо обрабатывать очень длинные документы, большие кодовые базы или многошаговые диалоги с полным сохранением контекста.

📖 Читать полный источник: HN AI Agents

DeepSeek-V4 Pro и Flash: 1,6 трлн параметров, контекст в 1 млн токенов, гибридное внимание

Архитектурные улучшения

Детали модели

Бенчмарки и эффективность

Для кого предназначено

👀 Смотрите также

Claude Code v2.1.98 добавляет мастер Vertex AI, исправления безопасности и песочницу для подпроцессов.

Ошибка в биллинге API Anthropic: модель Sonnet тарифицируется по ставкам Opus

Мартовская акция от Anthropic по использованию: как в непиковые часы удваиваются лимиты для Claude

NTSB изымает документы после того, как ИИ воссоздал голоса погибших пилотов по спектрограммам