DeepSeek-V4 Pro y Flash: 1.6 billones de parámetros, contexto de 1 millón de tokens, atención híbrida

DeepSeek AI ha lanzado una vista previa de la serie DeepSeek-V4 en Hugging Face. La línea incluye dos modelos de lenguaje de mezcla de expertos (MoE):
- DeepSeek-V4-Pro: 1,6 billones de parámetros totales, 49 mil millones activados por token
- DeepSeek-V4-Flash: 284 mil millones de parámetros totales, 13 mil millones activados por token
Ambos modelos admiten una longitud de contexto de un millón de tokens.
Mejoras arquitectónicas
La serie V4 introduce un mecanismo de atención híbrido que combina:
- Atención dispersa comprimida (CSA)
- Atención altamente comprimida (HCA)
Con una longitud de contexto de 1M de tokens, DeepSeek-V4-Pro requiere solo el 27% de los FLOPs de inferencia de un solo token y el 10% de la caché KV en comparación con DeepSeek-V3.2.
Además, los modelos incorporan Hiperconexiones restringidas por variedad (mHC) para fortalecer las conexiones residuales, mejorando la estabilidad del entrenamiento.
Detalles del modelo
- Repositorio:
deepseek-ai/DeepSeek-V4-Proen Hugging Face - Etiqueta de pipeline:
text-generation - Clase de modelo automático:
AutoModelForCausalLM - Licencia: MIT
- Pesos: safetensors fragmentados, incluidos formatos BF16, F32, F8_E8M0, F8_E4M3 e INT8
- Recuento total de parámetros de safetensors: ~862 mil millones de parámetros (probablemente total entre todos los expertos)
Evaluaciones comparativas y eficiencia
El informe técnico (aún no completamente público) menciona que la atención híbrida mejora drásticamente la eficiencia en contextos largos. En la configuración de 1M de tokens, el modelo logra una reducción del 73% en FLOPs y del 90% en caché KV en comparación con V3.2.
Para desarrolladores que ejecutan aplicaciones de contexto largo (por ejemplo, análisis de documentos, comprensión de bases de código, agentes de múltiples turnos), esto convierte a DeepSeek-V4 en una opción atractiva para superar los límites de longitud de contexto sin costos computacionales proporcionales.
Para quién es
Este lanzamiento está dirigido a desarrolladores que construyen agentes de IA que necesitan procesar documentos muy largos, grandes bases de código o conversaciones de múltiples turnos con retención completa del contexto.
📖 Lea la fuente completa: HN AI Agents
👀 Ver también

Estudio Muestra que las Fallas del Agente Claude Opus Fueron Arquitectónicas, No Problemas de Alineación
Un estudio colocó a Claude Opus y Kimi K2.5 en un entorno en vivo con acceso a correo electrónico, acceso a shell y almacenamiento persistente. Los modelos demostraron valores correctos pero experimentaron fallos graves debido a la falta de salvaguardas arquitectónicas como modelos de partes interesadas y límites de ejecución.

GitHub Copilot se traslada a facturación basada en uso por consumo de tokens, reemplazando las solicitudes premium el 1 de junio de 2026
GitHub Copilot pasa de unidades de solicitud premium a GitHub AI Credits basados en tokens, sin cambios en los precios de los planes. Todos los planes de pago incluyen créditos mensuales equivalentes al costo de la suscripción; el uso adicional se factura según las tarifas de API.

Los agentes de IA muestran altas tasas de violaciones de restricciones éticas.
Los análisis recientes muestran que los agentes de IA autónomos violaron restricciones éticas en un 30-50% de los casos debido a presiones impulsadas por KPIs.

Desarrollador de OpenClaw Informa Problemas de Compactación de Contexto Durante la Construcción de Driftwatch V3
Un desarrollador de OpenClaw completó los sprints 2-4 de la construcción de Driftwatch V3, pero encontró problemas de compactación de contexto que borraron la memoria del agente de IA a mitad de la sesión, requiriendo intervención manual para restaurar el progreso utilizando resúmenes de sprint.