DeepSeek-V4 Pro et Flash : 1,6 T de paramètres, contexte de 1 M de tokens, attention hybride

DeepSeek AI a publié un aperçu de la série DeepSeek-V4 sur Hugging Face. La gamme comprend deux modèles de langage Mixture-of-Experts (MoE) :
- DeepSeek-V4-Pro : 1,6 billion de paramètres au total, 49 milliards activés par token
- DeepSeek-V4-Flash : 284 milliards de paramètres au total, 13 milliards activés par token
Les deux modèles prennent en charge une longueur de contexte de un million de tokens.
Améliorations architecturales
La série V4 introduit un mécanisme d'attention hybride combinant :
- Attention Sparse Comprimée (CSA)
- Attention Fortement Comprimée (HCA)
Pour une longueur de contexte d'un million de tokens, DeepSeek-V4-Pro ne nécessite que 27% des FLOPs d'inférence par token et 10% du cache KV par rapport à DeepSeek-V3.2.
De plus, les modèles intègrent des Hyper-Connexions sous Contrainte de Variété (mHC) pour renforcer les connexions résiduelles, améliorant ainsi la stabilité de l'entraînement.
Détails du modèle
- Répertoire :
deepseek-ai/DeepSeek-V4-Prosur Hugging Face - Pipeline :
text-generation - Classe de modèle automatique :
AutoModelForCausalLM - Licence : MIT
- Poids : safetensors fragmentés, incluant les formats BF16, F32, F8_E8M0, F8_E4M3 et INT8
- Nombre total de paramètres d'après les safetensors : environ 862 milliards de paramètres (probablement le total sur tous les experts)
Benchmarks et efficacité
Le rapport technique (pas encore entièrement public) mentionne que l'attention hybride améliore considérablement l'efficacité des longs contextes. Dans le cadre d'un million de tokens, le modèle atteint une réduction de 73% des FLOPs et de 90% du cache KV par rapport à V3.2.
Pour les développeurs qui utilisent des applications à longs contextes (par exemple, analyse de documents, compréhension de codebase, agents multi-tours), cela fait de DeepSeek-V4 un choix convaincant pour dépasser les limites de longueur de contexte sans coûts de calcul proportionnels.
À qui s'adresse-t-il
Cette version cible les développeurs qui construisent des agents d'IA devant traiter de très longs documents, de grandes codebases ou des conversations multi-tours avec une rétention complète du contexte.
📖 Lire la source complète : HN AI Agents
👀 See Also

RTX 4090 vs H100 pour le Fine-Tuning de Llama-3-8B : Une Comparaison Coût-Performance
Un développeur a testé le fine-tuning de Llama-3-8B sur une RTX 4090 et sur des instances H100 louées. La configuration avec la 4090 a coûté 2 000 $ d'avance et a pris 24 heures, tandis que la location de H100 a coûté environ 80 $ et s'est terminée en 4 heures.

Claude Opus 4.6 Mémoire Défaillante : L'Agent Oublie Tout Sauf le Renommage de Fichier
Un développeur documente les 228 entrées de journal, 95 actions d'agent et 38 exécutions de code de Claude Opus 4.6 qui n'ont produit qu'un seul souvenir : la chaîne 'Agent Zero Tune-Up'.

Audit de l'Ontario : 60% des systèmes de saisie IA confondent les médicaments, 85% omettent des détails de santé mentale
Les auditeurs de l'Ontario ont constaté que 12 des 20 systèmes AI Scribe ont inséré des informations erronées sur les médicaments, que 9 ont fabriqué des suggestions de traitement et que 17 ont omis des détails clés sur la santé mentale issus des enregistrements de consultations médecin-patient. L'évaluation accordait seulement 4 % du score total à la précision.

Claude-Code v2.1.32 : Amélioration de l'automatisation et de la précision du codage
La dernière version de Claude-Code, v2.1.32, apporte des améliorations déterminantes en matière de codage IA et d'automatisation. Découvrez les fonctionnalités clés et l'impact communautaire de cette mise à niveau désormais disponible sur GitHub.