DeepSeek-V4 Pro e Flash: 1,6 trilhão de parâmetros, contexto de 1 milhão de tokens, atenção híbrida

✍️ OpenClawRadar📅 Publicado: April 24, 2026🔗 Source
DeepSeek-V4 Pro e Flash: 1,6 trilhão de parâmetros, contexto de 1 milhão de tokens, atenção híbrida
Ad

A DeepSeek AI lançou uma prévia da série DeepSeek-V4 no Hugging Face. A linha inclui dois modelos de linguagem Mixture-of-Experts (MoE):

  • DeepSeek-V4-Pro: 1,6 trilhão de parâmetros totais, 49 bilhões ativados por token
  • DeepSeek-V4-Flash: 284 bilhões de parâmetros totais, 13 bilhões ativados por token

Ambos os modelos suportam um comprimento de contexto de um milhão de tokens.

Atualizações Arquiteturais

A série V4 introduz um mecanismo de atenção híbrido que combina:

  • Atenção Esparsa Comprimida (CSA)
  • Atenção Altamente Comprimida (HCA)

No comprimento de contexto de 1 milhão de tokens, o DeepSeek-V4-Pro requer apenas 27% dos FLOPs de inferência por token e 10% do cache KV em comparação com o DeepSeek-V3.2.

Além disso, os modelos incorporam Conexões Hiper com Restrição de Manifold (mHC) para fortalecer as conexões residuais, melhorando a estabilidade do treinamento.

Ad

Detalhes do Modelo

  • Repositório: deepseek-ai/DeepSeek-V4-Pro no Hugging Face
  • Tag de pipeline: text-generation
  • Classe de modelo automático: AutoModelForCausalLM
  • Licença: MIT
  • Pesos: safetensors fragmentados, incluindo formatos BF16, F32, F8_E8M0, F8_E4M3 e INT8
  • Contagem total de parâmetros dos safetensors: ~862 bilhões de parâmetros (provavelmente total entre todos os especialistas)

Benchmarks e Eficiência

O relatório técnico (ainda não totalmente público) menciona que a atenção híbrida melhora drasticamente a eficiência em contextos longos. No cenário de 1 milhão de tokens, o modelo alcança uma redução de 73% nos FLOPs e 90% no cache KV em relação ao V3.2.

Para desenvolvedores que executam aplicações de contexto longo (por exemplo, análise de documentos, compreensão de bases de código, agentes multi-turn), isso torna o DeepSeek-V4 uma escolha atraente para superar limites de comprimento de contexto sem custos computacionais proporcionais.

Para Quem é Indicado

Este lançamento é voltado para desenvolvedores que constroem agentes de IA que precisam processar documentos muito longos, grandes bases de código ou conversas multi-turn com retenção total de contexto.

📖 Leia a fonte completa: HN AI Agents

Ad

👀 See Also

Claude-Code v2.1.47 Lançamento: Principais Correções e Melhorias
News

Claude-Code v2.1.47 Lançamento: Principais Correções e Melhorias

O lançamento do Claude-Code v2.1.47 traz correções cruciais para renderização de terminal Windows, manipulação de arquivos e saída de ferramentas bash, juntamente com melhorias de memória e desempenho.

OpenClawRadar
Análise do prompt de sistema forçado de ~12K tokens do Claude Code revela regras de prioridade que substituem a configuração do usuário
News

Análise do prompt de sistema forçado de ~12K tokens do Claude Code revela regras de prioridade que substituem a configuração do usuário

Uma análise do prompt de sistema injetado de ~12K tokens do Claude Code revela regras de prioridade para proibições de letras de música, delegação de subagentes e brevidade que substituem os arquivos CLAUDE.md e de memória definidos pelo usuário.

OpenClawRadar
Pentágono Envia Oferta Final à Anthropic para Uso de IA Militar em Meio a Disputa
News

Pentágono Envia Oferta Final à Anthropic para Uso de IA Militar em Meio a Disputa

O Pentágono enviou à Anthropic uma oferta final e definitiva para uso militar irrestrito de seu modelo de IA Claude, com prazo até sexta-feira para conceder acesso total ou enfrentar a perda de negócios militares e ser rotulada como risco na cadeia de suprimentos.

OpenClawRadar
O desenvolvedor do Claude Code reconhece falha no pensamento adaptativo e fornece solução alternativa
News

O desenvolvedor do Claude Code reconhece falha no pensamento adaptativo e fornece solução alternativa

Boris Charny, criador do Claude Code, confirmou uma falha no recurso de pensamento adaptativo que causa degradação de desempenho. Usuários que estão enfrentando problemas mesmo com configurações de esforço=alto podem usar CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 como uma solução temporária.

OpenClawRadar