DS4 de antirez: Ejecutando DeepSeek V4 Flash con Contexto de 1M en Mac Metal y DGX

El creador de Redis, Salvatore Sanfilippo (antirez), acaba de lanzar un nuevo proyecto llamado DS4 en GitHub. El objetivo: hacer que DeepSeek V4 Flash funcione con una ventana de contexto de 1M de tokens en hardware Apple Silicon (Metal). También publicó un video donde se ejecuta en un sistema NVIDIA DGX.
Qué hace DS4
DS4 aprovecha técnicas novedosas para ajustar una ventana de contexto de 1M para DeepSeek V4 Flash en hardware Mac Metal (por ejemplo, chips de la serie M). También se ha demostrado en un DGX, lo que sugiere que podría funcionar en GPU de gama alta como la Pro 6000 con ventanas de contexto ligeramente más pequeñas y mayor velocidad. Se especula sobre un futuro soporte para AMD.
Qué incluye
- Endpoints de servidor: El servidor DS4 ya proporciona endpoints de API compatibles con OpenAI y Anthropic, lo que facilita su integración con herramientas de codificación agentivas como Cursor, Continue.dev o agentes personalizados.
- Repositorio de GitHub: https://github.com/antirez/ds4/ — consulta el README para obtener instrucciones de configuración, que probablemente incluyan compilar con soporte Metal y descargar los pesos de DeepSeek V4 Flash.
- Video de demostración: Hace unas horas, antirez publicó un video en X mostrando el proyecto funcionando en un DGX: https://x.com/antirez/status/2053381973226184749
Para quién es
Desarrolladores con hardware Mac de gama alta (por ejemplo, Mac Studio, MacBook Pro con M1 Max/Ultra o M2/M3) o GPU NVIDIA que quieran ejecutar un LLM local potente con una ventana de contexto muy grande para agentes de codificación o investigación.
Llamado a la acción de la comunidad
El usuario de Reddit anima a cualquiera que tenga hardware potente a probar el proyecto y contribuir, ya sea probando, informando errores u optimizando para GPU AMD. El proyecto está en una etapa temprana, por lo que la participación de la comunidad podría acelerar la compatibilidad.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

Plugin OpenClaw A2A: Mensajería directa de agente a agente a través de Internet
Un plugin OpenClaw A2A permite la transferencia directa de archivos y mensajes entre OpenClaws y otros agentes a través de internet sin servicios de terceros como WhatsApp o correo electrónico.

MegaClaw: Configuración de OpenClaw en Contenedores con Playwright y Homebrew
MegaClaw es una configuración de Podman de dos imágenes para OpenClaw que aborda problemas comunes de instalación como errores de permisos y dependencias faltantes. Utiliza una construcción multi-etapa con Playwright y Homebrew preinstalados, e integra la configuración del usuario en una imagen de tiempo de ejecución.

Lightpanda: Navegador sin cabeza de código abierto para agentes de LLM con servidor MCP nativo y salida en formato markdown
Lightpanda es un navegador headless de código abierto diseñado para agentes impulsados por LLM que utiliza 16 veces menos memoria que Chrome (215 MB frente a 2 GB) y completa puntos de referencia de rastreo web en 5 segundos en lugar de 47 segundos. Proporciona salida nativa en markdown, un árbol semántico con detección de interactividad y un servidor MCP integrado.

Formato de Mente Portátil (PMF): Especificación de Agente Independiente del Proveedor con 15 Agentes de Código Abierto
El Formato de Mente Portátil (PMF) es una especificación basada en JSON para definir identidades de agentes de IA que pueden ejecutarse en múltiples modelos y proveedores, incluidos Claude, GPT-4, Gemini, DeepSeek y modelos locales a través de Ollama. Incluye 15 agentes de producción con licencia MIT y convertidores para Claude Code, Cursor, GitHub Copilot y Gemini CLI.