DeepSeek-V4 Pro et Flash : 1,6 T paramètres, contexte 1M tokens

DeepSeek AI a publié un aperçu de la série DeepSeek-V4 sur Hugging Face. La gamme comprend deux modèles de langage Mixture-of-Experts (MoE) :

DeepSeek-V4-Pro : 1,6 billion de paramètres au total, 49 milliards activés par token
DeepSeek-V4-Flash : 284 milliards de paramètres au total, 13 milliards activés par token

Les deux modèles prennent en charge une longueur de contexte de un million de tokens.

Améliorations architecturales

La série V4 introduit un mécanisme d'attention hybride combinant :

Attention Sparse Comprimée (CSA)
Attention Fortement Comprimée (HCA)

Pour une longueur de contexte d'un million de tokens, DeepSeek-V4-Pro ne nécessite que 27% des FLOPs d'inférence par token et 10% du cache KV par rapport à DeepSeek-V3.2.

De plus, les modèles intègrent des Hyper-Connexions sous Contrainte de Variété (mHC) pour renforcer les connexions résiduelles, améliorant ainsi la stabilité de l'entraînement.

Détails du modèle

Répertoire : deepseek-ai/DeepSeek-V4-Pro sur Hugging Face
Pipeline : text-generation
Classe de modèle automatique : AutoModelForCausalLM
Licence : MIT
Poids : safetensors fragmentés, incluant les formats BF16, F32, F8_E8M0, F8_E4M3 et INT8
Nombre total de paramètres d'après les safetensors : environ 862 milliards de paramètres (probablement le total sur tous les experts)

Benchmarks et efficacité

Le rapport technique (pas encore entièrement public) mentionne que l'attention hybride améliore considérablement l'efficacité des longs contextes. Dans le cadre d'un million de tokens, le modèle atteint une réduction de 73% des FLOPs et de 90% du cache KV par rapport à V3.2.

Pour les développeurs qui utilisent des applications à longs contextes (par exemple, analyse de documents, compréhension de codebase, agents multi-tours), cela fait de DeepSeek-V4 un choix convaincant pour dépasser les limites de longueur de contexte sans coûts de calcul proportionnels.

À qui s'adresse-t-il

Cette version cible les développeurs qui construisent des agents d'IA devant traiter de très longs documents, de grandes codebases ou des conversations multi-tours avec une rétention complète du contexte.

📖 Lire la source complète : HN AI Agents

DeepSeek-V4 Pro et Flash : 1,6 T de paramètres, contexte de 1 M de tokens, attention hybride

Améliorations architecturales

Détails du modèle

Benchmarks et efficacité

À qui s'adresse-t-il

👀 See Also

La conformité des instructions système de Claude se dégrade dans les conversations longues.

Bloomberg rapporte que les pertes d'emplois liées à l'exposition à l'IA commencent à s'accumuler aux États-Unis

Explorer quels fichiers sont inclus dans la fenêtre de contexte d'un chat Telegram

Anthropic abandonne un engagement clé en matière de sécurité dans sa politique de mise à l'échelle responsable