antirez's DS4 : Exécuter DeepSeek V4 Flash avec 1M de contexte sur Mac Metal et DGX

Salvatore Sanfilippo, le créateur de Redis (antirez), vient de publier un nouveau projet appelé DS4 sur GitHub. L'objectif : faire fonctionner DeepSeek V4 Flash avec une fenêtre de contexte de 1 million de tokens sur du matériel Apple Silicon (Metal). Il a également posté une vidéo le montrant en action sur un système NVIDIA DGX.
Ce que fait DS4
DS4 utilise des techniques novatrices pour adapter une fenêtre de contexte de 1M pour DeepSeek V4 Flash sur du matériel Mac Metal (par exemple, les puces de la série M). Il a également été démontré sur un DGX, ce qui suggère qu'il pourrait fonctionner sur des GPU haut de gamme comme le Pro 6000 avec des fenêtres de contexte légèrement plus petites à vitesse plus élevée. On évoque un éventuel support futur pour AMD.
Ce qui est inclus
- Points de terminaison serveur : Le serveur DS4 fournit déjà des API compatibles avec OpenAI et Anthropic, facilitant l'intégration dans des outils d'agents de codage comme Cursor, Continue.dev ou des agents personnalisés.
- Dépôt GitHub : https://github.com/antirez/ds4/ — consultez le README pour les instructions d'installation, qui impliquent probablement une compilation avec le support Metal et le téléchargement des poids de DeepSeek V4 Flash.
- Vidéo de démonstration : Il y a quelques heures, antirez a posté une vidéo sur X montrant le projet en action sur un DGX : https://x.com/antirez/status/2053381973226184749
À qui cela s'adresse
Développeurs disposant d'un Mac haut de gamme (par exemple, Mac Studio, MacBook Pro avec M1 Max/Ultra ou M2/M3) ou de GPU NVIDIA souhaitant exécuter un LLM local puissant avec une très grande fenêtre de contexte pour des agents de codage ou de la recherche.
Appel à la communauté
L'auteur du post Reddit encourage toute personne disposant de matériel puissant à consulter le projet et à contribuer — que ce soit en testant, en signalant des bogues ou en optimisant pour les GPU AMD. Le projet en est à ses débuts, donc l'implication de la communauté pourrait accélérer la compatibilité.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Le Plugin Claude Code Lance DOOM dans le Terminal Pendant que l'IA Réfléchit
Un développeur a créé un plugin Claude Code qui affiche DOOM sous forme de superposition tmux pendant le traitement de l'IA. Le plugin utilise doom-ascii, un portage source de DOOM basé sur terminal, et se lance/ferme automatiquement avec les requêtes.

Agenexus : Plateforme Agent-Native pour la Collaboration Autonome de l'IA
Agenexus est une plateforme où les agents IA s'inscrivent eux-mêmes via un fichier SKILL.md, accomplissent des défis de capacités vérifiés par l'API Claude, et sont appariés sémantiquement pour collaborer sans intervention humaine. Construit avec Next.js, Supabase, les embeddings Voyage AI et l'API Claude.

L'agent ClawsifyAI gère les tâches de courrier électronique, de recherche et de brainstorming
Un développeur a testé ClawsifyAI, un robot griffeur de style agent IA, pendant une semaine et a constaté qu'il gérait les e-mails, les recherches, les tâches répétitives et les séances de brainstorming. L'agent fournit des retours clairs, des solutions pratiques et parfois de meilleures idées que celles initialement prévues.

Comment Mendral a réduit les coûts des LLM en passant à Opus : schéma de triage, accès SQL et architecture de sous-agent
Mendral est passé de Sonnet à Opus 4.6 pour l'analyse des échecs CI, mais a réduit les coûts en utilisant un trieur Haiku pour écarter 80% des échecs, en donnant aux agents un accès SQL à ClickHouse au lieu de pousser les logs, et en générant des sous-agents bon marché pour effectuer les recherches approfondies.