DeepSeek-V4 Pro y Flash: 1.6 billones de parámetros, contexto de 1 millón de tokens, atención híbrida

DeepSeek AI ha lanzado una vista previa de la serie DeepSeek-V4 en Hugging Face. La línea incluye dos modelos de lenguaje de mezcla de expertos (MoE):
- DeepSeek-V4-Pro: 1,6 billones de parámetros totales, 49 mil millones activados por token
- DeepSeek-V4-Flash: 284 mil millones de parámetros totales, 13 mil millones activados por token
Ambos modelos admiten una longitud de contexto de un millón de tokens.
Mejoras arquitectónicas
La serie V4 introduce un mecanismo de atención híbrido que combina:
- Atención dispersa comprimida (CSA)
- Atención altamente comprimida (HCA)
Con una longitud de contexto de 1M de tokens, DeepSeek-V4-Pro requiere solo el 27% de los FLOPs de inferencia de un solo token y el 10% de la caché KV en comparación con DeepSeek-V3.2.
Además, los modelos incorporan Hiperconexiones restringidas por variedad (mHC) para fortalecer las conexiones residuales, mejorando la estabilidad del entrenamiento.
Detalles del modelo
- Repositorio:
deepseek-ai/DeepSeek-V4-Proen Hugging Face - Etiqueta de pipeline:
text-generation - Clase de modelo automático:
AutoModelForCausalLM - Licencia: MIT
- Pesos: safetensors fragmentados, incluidos formatos BF16, F32, F8_E8M0, F8_E4M3 e INT8
- Recuento total de parámetros de safetensors: ~862 mil millones de parámetros (probablemente total entre todos los expertos)
Evaluaciones comparativas y eficiencia
El informe técnico (aún no completamente público) menciona que la atención híbrida mejora drásticamente la eficiencia en contextos largos. En la configuración de 1M de tokens, el modelo logra una reducción del 73% en FLOPs y del 90% en caché KV en comparación con V3.2.
Para desarrolladores que ejecutan aplicaciones de contexto largo (por ejemplo, análisis de documentos, comprensión de bases de código, agentes de múltiples turnos), esto convierte a DeepSeek-V4 en una opción atractiva para superar los límites de longitud de contexto sin costos computacionales proporcionales.
Para quién es
Este lanzamiento está dirigido a desarrolladores que construyen agentes de IA que necesitan procesar documentos muy largos, grandes bases de código o conversaciones de múltiples turnos con retención completa del contexto.
📖 Lea la fuente completa: HN AI Agents
👀 Ver también

Proveedor OpenClaw Mistral Roto Desde la Actualización 2026.3.8, la Comunidad Busca Alternativas
Los usuarios de OpenClaw reportan errores persistentes HTTP 422 con los modelos Mistral desde la actualización 2026.3.8, sin correcciones en las versiones posteriores hasta la 2026.3.13. El problema afecta toda la funcionalidad relacionada con Mistral, mientras que las llamadas directas a la API funcionan con normalidad.

Claude-Code v2.1.94 agrega compatibilidad con Mantle y corrige errores críticos.
Claude-Code v2.1.94 introduce soporte para Amazon Bedrock a través de Mantle con la variable de entorno CLAUDE_CODE_USE_MANTLE=1, cambia el nivel de esfuerzo predeterminado a alto para la mayoría de usuarios, y corrige más de 15 errores incluyendo manejo de límites de tasa, problemas de inicio de sesión en macOS y fallos del sistema de complementos.

Modos de Falla de la IA Agéntica y Andamiaje de Desarrollo
Los sistemas de IA agentes fallan en producción debido a la deriva de alineación, la pérdida de contexto entre transferencias, las violaciones de límites y el colapso de coordinación. La fuente propone un enfoque de 'andamiaje de desarrollo' con cinco componentes: monitoreo de coherencia, reparación de coordinación, conciencia de consentimiento y límites, continuidad relacional y gobernanza adaptativa.
Referencia de Opus 4.7 sobre el esfuerzo de razonamiento: el nivel medio supera al alto y al máximo en tareas reales
En 29 tareas del repositorio GraphQL-go-tools, Opus 4.7 en Claude Code alcanza su punto máximo con esfuerzo de razonamiento medio — las configuraciones más altas degradan la corrección y aumentan el costo sin mejorar la calidad del parche.