DeepSeek-V4 Pro e Flash: 1,6T Parâmetros e Contexto de 1M Tokens

A DeepSeek AI lançou uma prévia da série DeepSeek-V4 no Hugging Face. A linha inclui dois modelos de linguagem Mixture-of-Experts (MoE):

DeepSeek-V4-Pro: 1,6 trilhão de parâmetros totais, 49 bilhões ativados por token
DeepSeek-V4-Flash: 284 bilhões de parâmetros totais, 13 bilhões ativados por token

Ambos os modelos suportam um comprimento de contexto de um milhão de tokens.

Atualizações Arquiteturais

A série V4 introduz um mecanismo de atenção híbrido que combina:

Atenção Esparsa Comprimida (CSA)
Atenção Altamente Comprimida (HCA)

No comprimento de contexto de 1 milhão de tokens, o DeepSeek-V4-Pro requer apenas 27% dos FLOPs de inferência por token e 10% do cache KV em comparação com o DeepSeek-V3.2.

Além disso, os modelos incorporam Conexões Hiper com Restrição de Manifold (mHC) para fortalecer as conexões residuais, melhorando a estabilidade do treinamento.

Detalhes do Modelo

Repositório: deepseek-ai/DeepSeek-V4-Pro no Hugging Face
Tag de pipeline: text-generation
Classe de modelo automático: AutoModelForCausalLM
Licença: MIT
Pesos: safetensors fragmentados, incluindo formatos BF16, F32, F8_E8M0, F8_E4M3 e INT8
Contagem total de parâmetros dos safetensors: ~862 bilhões de parâmetros (provavelmente total entre todos os especialistas)

Benchmarks e Eficiência

O relatório técnico (ainda não totalmente público) menciona que a atenção híbrida melhora drasticamente a eficiência em contextos longos. No cenário de 1 milhão de tokens, o modelo alcança uma redução de 73% nos FLOPs e 90% no cache KV em relação ao V3.2.

Para desenvolvedores que executam aplicações de contexto longo (por exemplo, análise de documentos, compreensão de bases de código, agentes multi-turn), isso torna o DeepSeek-V4 uma escolha atraente para superar limites de comprimento de contexto sem custos computacionais proporcionais.

Para Quem é Indicado

Este lançamento é voltado para desenvolvedores que constroem agentes de IA que precisam processar documentos muito longos, grandes bases de código ou conversas multi-turn com retenção total de contexto.

📖 Leia a fonte completa: HN AI Agents