DeepSeek-V4 Pro и Flash: 1,6 трлн параметров, контекст в 1 млн токенов, гибридное внимание

Компания DeepSeek AI опубликовала предварительную версию серии DeepSeek-V4 на Hugging Face. В состав вошли две языковые модели на основе смеси экспертов (MoE):
- DeepSeek-V4-Pro: 1,6 триллиона параметров всего, 49 миллиардов активируется на токен
- DeepSeek-V4-Flash: 284 миллиарда параметров всего, 13 миллиардов активируется на токен
Обе модели поддерживают длину контекста в один миллион токенов.
Архитектурные улучшения
Серия V4 представляет гибридный механизм внимания, объединяющий:
- Сжатое разреженное внимание (CSA)
- Сильно сжатое внимание (HCA)
При длине контекста в 1 млн токенов DeepSeek-V4-Pro требует лишь 27% FLOPs для инференса одного токена и 10% KV-кэша по сравнению с DeepSeek-V3.2.
Кроме того, модели включают Гиперсвязи с ограничением многообразия (mHC) для усиления остаточных связей, что повышает стабильность обучения.
Детали модели
- Репозиторий:
deepseek-ai/DeepSeek-V4-Proна Hugging Face - Тэг пайплайна:
text-generation - Класс AutoModel:
AutoModelForCausalLM - Лицензия: MIT
- Веса: шардированные safetensors, включая форматы BF16, F32, F8_E8M0, F8_E4M3 и INT8
- Общее количество параметров из safetensors: ~862 миллиарда параметров (вероятно, сумма по всем экспертам)
Бенчмарки и эффективность
Технический отчет (еще не полностью опубликован) упоминает, что гибридное внимание значительно повышает эффективность работы с длинным контекстом. В режиме 1 млн токенов модель достигает снижения FLOPs на 73% и KV-кэша на 90% по сравнению с V3.2.
Для разработчиков, создающих приложения с длинным контекстом (например, анализ документов, понимание кодовой базы, многошаговые агенты), DeepSeek-V4 становится привлекательным выбором для преодоления ограничений длины контекста без пропорционального роста вычислительных затрат.
Для кого предназначено
Этот релиз ориентирован на разработчиков, создающих AI-агенты, которым необходимо обрабатывать очень длинные документы, большие кодовые базы или многошаговые диалоги с полным сохранением контекста.
📖 Читать полный источник: HN AI Agents
👀 Смотрите также

Claude Code v2.1.98 добавляет мастер Vertex AI, исправления безопасности и песочницу для подпроцессов.
Claude Code v2.1.98 представляет интерактивный мастер настройки Google Vertex AI, добавляет изоляцию подпроцессов с пространством имён PID в Linux и исправляет несколько уязвимостей безопасности, включая обход разрешений Bash и риски выполнения произвольного кода.

Ошибка в биллинге API Anthropic: модель Sonnet тарифицируется по ставкам Opus
Пользователь обнаружил, что API Anthropic некорректно выставляет счета за модель claude-sonnet-4-6 по тарифам Opus, несмотря на возвращение правильного названия модели. Ошибка была выявлена при анализе необработанных данных событий, показавших расхождение в стоимости.

Мартовская акция от Anthropic по использованию: как в непиковые часы удваиваются лимиты для Claude
Anthropic проводит акцию по сниженному использованию в 2 раза до 27 марта, когда Claude учитывает потреблённое использование как половину в указанные часы, эффективно удваивая ваш 5-часовой лимит. Акция работает путём уменьшения подсчёта потребления вдвое, а не предоставления отдельного пула использования.

NTSB изымает документы после того, как ИИ воссоздал голоса погибших пилотов по спектрограммам
Пользователи восстановили аудио из спектрограмм NTSB с помощью Codex и алгоритма Гриффина-Лима. NTSB закрыл публичный доступ к материалам.