DS4: DeepSeek V4 Flash com Contexto de 1M no Mac Metal e DGX

O criador do Redis, Salvatore Sanfilippo (antirez), acabou de lançar um novo projeto chamado DS4 no GitHub. O objetivo: fazer o DeepSeek V4 Flash rodar com uma janela de contexto de 1M tokens em hardware Apple Silicon (Metal). Ele também postou um vídeo do sistema rodando em um NVIDIA DGX.

O que o DS4 faz

O DS4 utiliza técnicas inovadoras para encaixar uma janela de contexto de 1M tokens do DeepSeek V4 Flash em hardware Mac Metal (por exemplo, chips da série M). Também foi demonstrado em um DGX, sugerindo que pode funcionar em GPUs de alto desempenho como a Pro 6000 com janelas de contexto um pouco menores e maior velocidade. Há especulações sobre suporte futuro para AMD.

O que está incluído

Endpoints de servidor: O servidor DS4 já fornece endpoints de API compatíveis com OpenAI e Anthropic, facilitando a integração com ferramentas de codificação agêntica como Cursor, Continue.dev ou agentes personalizados.
Repositório GitHub: https://github.com/antirez/ds4/ — confira o README para instruções de configuração, que provavelmente envolvem compilar com suporte Metal e baixar os pesos do DeepSeek V4 Flash.
Demonstração em vídeo: Há algumas horas, antirez postou um vídeo no X mostrando o sistema rodando em um DGX: https://x.com/antirez/status/2053381973226184749

Para quem é

Desenvolvedores com hardware Mac de alto desempenho (por exemplo, Mac Studio, MacBook Pro com M1 Max/Ultra ou M2/M3) ou GPUs NVIDIA que desejam executar um LLM local poderoso com uma janela de contexto muito grande para agentes de codificação ou pesquisa.

Chamado à ação da comunidade

O autor do post no Reddit incentiva qualquer pessoa com hardware potente a conferir o projeto e contribuir — seja testando, relatando bugs ou otimizando para GPUs AMD. O projeto está em estágio inicial, então o envolvimento da comunidade pode acelerar a compatibilidade.

📖 Leia a fonte completa: r/LocalLLaMA