DeepSeek-V4 Pro y Flash: 1.6 billones de parámetros, 1M tokens

DeepSeek AI ha lanzado una vista previa de la serie DeepSeek-V4 en Hugging Face. La línea incluye dos modelos de lenguaje de mezcla de expertos (MoE):

DeepSeek-V4-Pro: 1,6 billones de parámetros totales, 49 mil millones activados por token
DeepSeek-V4-Flash: 284 mil millones de parámetros totales, 13 mil millones activados por token

Ambos modelos admiten una longitud de contexto de un millón de tokens.

Mejoras arquitectónicas

La serie V4 introduce un mecanismo de atención híbrido que combina:

Atención dispersa comprimida (CSA)
Atención altamente comprimida (HCA)

Con una longitud de contexto de 1M de tokens, DeepSeek-V4-Pro requiere solo el 27% de los FLOPs de inferencia de un solo token y el 10% de la caché KV en comparación con DeepSeek-V3.2.

Además, los modelos incorporan Hiperconexiones restringidas por variedad (mHC) para fortalecer las conexiones residuales, mejorando la estabilidad del entrenamiento.

Detalles del modelo

Repositorio: deepseek-ai/DeepSeek-V4-Pro en Hugging Face
Etiqueta de pipeline: text-generation
Clase de modelo automático: AutoModelForCausalLM
Licencia: MIT
Pesos: safetensors fragmentados, incluidos formatos BF16, F32, F8_E8M0, F8_E4M3 e INT8
Recuento total de parámetros de safetensors: ~862 mil millones de parámetros (probablemente total entre todos los expertos)

Evaluaciones comparativas y eficiencia

El informe técnico (aún no completamente público) menciona que la atención híbrida mejora drásticamente la eficiencia en contextos largos. En la configuración de 1M de tokens, el modelo logra una reducción del 73% en FLOPs y del 90% en caché KV en comparación con V3.2.

Para desarrolladores que ejecutan aplicaciones de contexto largo (por ejemplo, análisis de documentos, comprensión de bases de código, agentes de múltiples turnos), esto convierte a DeepSeek-V4 en una opción atractiva para superar los límites de longitud de contexto sin costos computacionales proporcionales.

Para quién es

Este lanzamiento está dirigido a desarrolladores que construyen agentes de IA que necesitan procesar documentos muy largos, grandes bases de código o conversaciones de múltiples turnos con retención completa del contexto.

📖 Lea la fuente completa: HN AI Agents

DeepSeek-V4 Pro y Flash: 1.6 billones de parámetros, contexto de 1 millón de tokens, atención híbrida

Mejoras arquitectónicas

Detalles del modelo

Evaluaciones comparativas y eficiencia

Para quién es

👀 Ver también

Proveedor OpenClaw Mistral Roto Desde la Actualización 2026.3.8, la Comunidad Busca Alternativas

Claude-Code v2.1.94 agrega compatibilidad con Mantle y corrige errores críticos.

Modos de Falla de la IA Agéntica y Andamiaje de Desarrollo

Referencia de Opus 4.7 sobre el esfuerzo de razonamiento: el nivel medio supera al alto y al máximo en tareas reales