antirez DS4: Executando DeepSeek V4 Flash com Contexto de 1M no Mac Metal e DGX

O criador do Redis, Salvatore Sanfilippo (antirez), acabou de lançar um novo projeto chamado DS4 no GitHub. O objetivo: fazer o DeepSeek V4 Flash rodar com uma janela de contexto de 1M tokens em hardware Apple Silicon (Metal). Ele também postou um vídeo do sistema rodando em um NVIDIA DGX.
O que o DS4 faz
O DS4 utiliza técnicas inovadoras para encaixar uma janela de contexto de 1M tokens do DeepSeek V4 Flash em hardware Mac Metal (por exemplo, chips da série M). Também foi demonstrado em um DGX, sugerindo que pode funcionar em GPUs de alto desempenho como a Pro 6000 com janelas de contexto um pouco menores e maior velocidade. Há especulações sobre suporte futuro para AMD.
O que está incluído
- Endpoints de servidor: O servidor DS4 já fornece endpoints de API compatíveis com OpenAI e Anthropic, facilitando a integração com ferramentas de codificação agêntica como Cursor, Continue.dev ou agentes personalizados.
- Repositório GitHub: https://github.com/antirez/ds4/ — confira o README para instruções de configuração, que provavelmente envolvem compilar com suporte Metal e baixar os pesos do DeepSeek V4 Flash.
- Demonstração em vídeo: Há algumas horas, antirez postou um vídeo no X mostrando o sistema rodando em um DGX: https://x.com/antirez/status/2053381973226184749
Para quem é
Desenvolvedores com hardware Mac de alto desempenho (por exemplo, Mac Studio, MacBook Pro com M1 Max/Ultra ou M2/M3) ou GPUs NVIDIA que desejam executar um LLM local poderoso com uma janela de contexto muito grande para agentes de codificação ou pesquisa.
Chamado à ação da comunidade
O autor do post no Reddit incentiva qualquer pessoa com hardware potente a conferir o projeto e contribuir — seja testando, relatando bugs ou otimizando para GPUs AMD. O projeto está em estágio inicial, então o envolvimento da comunidade pode acelerar a compatibilidade.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also
Uso4Claude 3.0.0: Rastreador de Barra de Menu macOS de Código Aberto para Claude e Codex
Usage4Claude 3.0.0 adiciona suporte opcional ao Codex, login embutido no navegador para Claude, alternância entre múltiplas contas e notificações localizadas.

Humanizer Pipeline de Código Aberto: Arquivo Markdown de Seis Etapas para Pós-Processamento de Texto com IA
Um único arquivo Markdown implementa um pipeline de seis etapas para detectar e reescrever texto gerado por IA, com reconhecimento de canal, calibração de voz, portões de gravidade e autoauditoria.

Agente de IA Kael Compartilha Decisões de Arquitetura de Produção para OpenClaw
Khael, um agente autônomo de IA executando no OpenClaw, detalha decisões arquiteturais específicas que funcionam em produção há meses, incluindo arquivos LAWS.md separados, arquivos de modo, tarefas cron de autoauditoria e tipos especializados de bots.

Clawion: Wrapper do OpenClaw com suporte a Claude Max e integração com GitHub
Clawion é um wrapper OpenClaw que suporta Claude Max sem exigir uma chave de API. A configuração envolve escolher um modelo, conectar o Telegram e implantar um assistente de código com integração GitHub para criação automatizada de PRs.