antirezs DS4: Ausführen von DeepSeek V4 Flash mit 1M Kontext auf Mac Metal und DGX

Redis-Erfinder Salvatore Sanfilippo (antirez) hat gerade ein neues Projekt namens DS4 auf GitHub veröffentlicht. Ziel: DeepSeek V4 Flash mit einem 1M-Token-Kontextfenster auf Apple Silicon (Metal) Hardware zum Laufen zu bringen. Er hat auch ein Video gepostet, das es auf einem NVIDIA DGX-System zeigt.
Was DS4 macht
DS4 nutzt neuartige Techniken, um ein 1M-Kontextfenster für DeepSeek V4 Flash auf Mac Metal Hardware (z.B. M-Serie-Chips) unterzubringen. Es wurde auch auf einer DGX demonstriert, was darauf hindeutet, dass es auf High-End-GPUs wie der Pro 6000 mit etwas kleineren Kontextfenstern und höherer Geschwindigkeit funktionieren könnte. Es gibt Spekulationen über zukünftige AMD-Unterstützung.
Enthaltene Komponenten
- Server-Endpunkte: Der DS4-Server bietet bereits OpenAI- und Anthropic-kompatible API-Endpunkte, was die Integration in agentische Codierungstools wie Cursor, Continue.dev oder benutzerdefinierte Agenten erleichtert.
- GitHub-Repo: https://github.com/antirez/ds4/ — siehe README für Einrichtungsanweisungen, die wahrscheinlich das Kompilieren mit Metal-Unterstützung und das Herunterladen der DeepSeek V4 Flash-Gewichte beinhalten.
- Video-Demo: Vor ein paar Stunden hat antirez ein Video auf X gepostet, das die Ausführung auf einer DGX zeigt: https://x.com/antirez/status/2053381973226184749
Für wen es gedacht ist
Entwickler mit High-End-Mac-Hardware (z.B. Mac Studio, MacBook Pro mit M1 Max/Ultra oder M2/M3) oder NVIDIA-GPUs, die ein leistungsstarkes lokales LLM mit einem sehr großen Kontextfenster für Codierungsagenten oder Forschung ausführen möchten.
Aufruf an die Community
Der Reddit-Poster ermutigt alle mit leistungsstarker Hardware, sich das Projekt anzusehen und beizutragen – sei es durch Testen, Melden von Fehlern oder Optimieren für AMD-GPUs. Das Projekt befindet sich in einem frühen Stadium, daher könnte das Engagement der Community die Kompatibilität beschleunigen.
📖 Lies die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

CLI-Tools mit KI-Agenten-Kompatibilität: Ansatz über ein Skills-Verzeichnis
Ein Reddit-Nutzer teilt eine Methode, um CLI-Tools mit KI-Code-Agenten wie Claude Code kompatibel zu machen, indem SKILL.md-Dateien erstellt werden, die den Agenten Installation, Authentifizierung und Nutzung beibringen. Der Ansatz behandelt häufige Probleme wie interaktive Eingabeaufforderungen, JSON-Ausgabe und Authentifizierungsmethoden.

Membase: Externer Speicherlayer für KI-Assistenten über Tools hinweg
Membase ist eine externe Speicherschicht, die Konversationskontext extrahiert und in einem Wissensgraphen speichert, um dann relevante Erinnerungen in neue Chats bei Claude, ChatGPT, Cursor, Gemini und anderen KI-Tools einzufügen. Es befindet sich derzeit in einer geschlossenen Beta mit allen Funktionen kostenlos.

ViralCanvas.ai bietet einen persistenten Kontext-Arbeitsbereich für Claude-Modelle, einschließlich Sonnet 4.5.
ViralCanvas.ai ist ein visueller Arbeitsbereich, der auf den Modellen von Claude aufbaut und Zugang zu Sonnet 4.5, Sonnet 4.6, Opus 4.5 und Opus 4.6 mit dauerhafter Kontextanbindung bietet. Das Tool behebt Kontextverschlechterungen in langen Gesprächen, indem verbundene Dokumente bei jeder Eingabe aktiv gewichtet werden.

Calmkeep: Eine externe Kontinuitätsschicht zur Bekämpfung von LLM-Drift in Langzeitsitzungen
Calmkeep ist eine externe Kontinuitätsschicht, die entwickelt wurde, um LLM-Drift in längeren Sitzungen entgegenzuwirken, und zeigt 85 % Integrität gegenüber 60 % für Standard-Claude in einem 25-Zug-Backend-Build-Test und 100 % gegenüber 50 % in einer juristischen Sitzung.