antirezs DS4: Ausführen von DeepSeek V4 Flash mit 1M Kontext auf Mac Metal und DGX

✍️ OpenClawRadar📅 Veröffentlicht: 10. Mai 2026🔗 Source
antirezs DS4: Ausführen von DeepSeek V4 Flash mit 1M Kontext auf Mac Metal und DGX
Ad

Redis-Erfinder Salvatore Sanfilippo (antirez) hat gerade ein neues Projekt namens DS4 auf GitHub veröffentlicht. Ziel: DeepSeek V4 Flash mit einem 1M-Token-Kontextfenster auf Apple Silicon (Metal) Hardware zum Laufen zu bringen. Er hat auch ein Video gepostet, das es auf einem NVIDIA DGX-System zeigt.

Was DS4 macht

DS4 nutzt neuartige Techniken, um ein 1M-Kontextfenster für DeepSeek V4 Flash auf Mac Metal Hardware (z.B. M-Serie-Chips) unterzubringen. Es wurde auch auf einer DGX demonstriert, was darauf hindeutet, dass es auf High-End-GPUs wie der Pro 6000 mit etwas kleineren Kontextfenstern und höherer Geschwindigkeit funktionieren könnte. Es gibt Spekulationen über zukünftige AMD-Unterstützung.

Enthaltene Komponenten

  • Server-Endpunkte: Der DS4-Server bietet bereits OpenAI- und Anthropic-kompatible API-Endpunkte, was die Integration in agentische Codierungstools wie Cursor, Continue.dev oder benutzerdefinierte Agenten erleichtert.
  • GitHub-Repo: https://github.com/antirez/ds4/ — siehe README für Einrichtungsanweisungen, die wahrscheinlich das Kompilieren mit Metal-Unterstützung und das Herunterladen der DeepSeek V4 Flash-Gewichte beinhalten.
  • Video-Demo: Vor ein paar Stunden hat antirez ein Video auf X gepostet, das die Ausführung auf einer DGX zeigt: https://x.com/antirez/status/2053381973226184749
Ad

Für wen es gedacht ist

Entwickler mit High-End-Mac-Hardware (z.B. Mac Studio, MacBook Pro mit M1 Max/Ultra oder M2/M3) oder NVIDIA-GPUs, die ein leistungsstarkes lokales LLM mit einem sehr großen Kontextfenster für Codierungsagenten oder Forschung ausführen möchten.

Aufruf an die Community

Der Reddit-Poster ermutigt alle mit leistungsstarker Hardware, sich das Projekt anzusehen und beizutragen – sei es durch Testen, Melden von Fehlern oder Optimieren für AMD-GPUs. Das Projekt befindet sich in einem frühen Stadium, daher könnte das Engagement der Community die Kompatibilität beschleunigen.

📖 Lies die vollständige Quelle: r/LocalLLaMA

Ad

👀 Siehe auch

CLI-Tools mit KI-Agenten-Kompatibilität: Ansatz über ein Skills-Verzeichnis
Werkzeuge

CLI-Tools mit KI-Agenten-Kompatibilität: Ansatz über ein Skills-Verzeichnis

Ein Reddit-Nutzer teilt eine Methode, um CLI-Tools mit KI-Code-Agenten wie Claude Code kompatibel zu machen, indem SKILL.md-Dateien erstellt werden, die den Agenten Installation, Authentifizierung und Nutzung beibringen. Der Ansatz behandelt häufige Probleme wie interaktive Eingabeaufforderungen, JSON-Ausgabe und Authentifizierungsmethoden.

OpenClawRadar
Membase: Externer Speicherlayer für KI-Assistenten über Tools hinweg
Werkzeuge

Membase: Externer Speicherlayer für KI-Assistenten über Tools hinweg

Membase ist eine externe Speicherschicht, die Konversationskontext extrahiert und in einem Wissensgraphen speichert, um dann relevante Erinnerungen in neue Chats bei Claude, ChatGPT, Cursor, Gemini und anderen KI-Tools einzufügen. Es befindet sich derzeit in einer geschlossenen Beta mit allen Funktionen kostenlos.

OpenClawRadar
ViralCanvas.ai bietet einen persistenten Kontext-Arbeitsbereich für Claude-Modelle, einschließlich Sonnet 4.5.
Werkzeuge

ViralCanvas.ai bietet einen persistenten Kontext-Arbeitsbereich für Claude-Modelle, einschließlich Sonnet 4.5.

ViralCanvas.ai ist ein visueller Arbeitsbereich, der auf den Modellen von Claude aufbaut und Zugang zu Sonnet 4.5, Sonnet 4.6, Opus 4.5 und Opus 4.6 mit dauerhafter Kontextanbindung bietet. Das Tool behebt Kontextverschlechterungen in langen Gesprächen, indem verbundene Dokumente bei jeder Eingabe aktiv gewichtet werden.

OpenClawRadar
Calmkeep: Eine externe Kontinuitätsschicht zur Bekämpfung von LLM-Drift in Langzeitsitzungen
Werkzeuge

Calmkeep: Eine externe Kontinuitätsschicht zur Bekämpfung von LLM-Drift in Langzeitsitzungen

Calmkeep ist eine externe Kontinuitätsschicht, die entwickelt wurde, um LLM-Drift in längeren Sitzungen entgegenzuwirken, und zeigt 85 % Integrität gegenüber 60 % für Standard-Claude in einem 25-Zug-Backend-Build-Test und 100 % gegenüber 50 % in einer juristischen Sitzung.

OpenClawRadar