oMLX: SSD-KV-Caching für Apple Silicon senkt Antwortzeit auf 5s

Was oMLX löst

OpenClaw lokal auszuführen bedeutet normalerweise, dass bei jeder Anfrage das gleiche riesige System-Prompt (20-30k Token mit Tools, Fähigkeiten, Arbeitsbereichskontext) gesendet wird. Während Ollama und LM Studio den KV-Zustand zwischenspeichern, invalidieren sie den gesamten Cache und berechnen ihn bei Kontextwechseln während einer Sitzung neu, was zu Antwortzeiten von 30-90 Sekunden führt.

oMLX behebt dies, indem KV-Cache-Blöcke im Safetensors-Format auf der SSD gespeichert werden. Wenn ein zuvor gesehenes Präfix zurückkehrt, wird es von der Festplatte wiederhergestellt statt neu berechnet – funktioniert über Anfragen und Server-Neustarts hinweg. Da das System-Prompt von OpenClaw größtenteils statisch ist (nur Zeitstempel und Laufzeit-Metadaten ändern sich), bedeutet SSD-Caching, dass nur geänderte Teile neu berechnet werden.

Leistungsbenchmarks

Getestet mit Qwen3.5-122B-A10B-4bit auf M3 Ultra 512GB:

Einzelanfrage-Benchmarks:
- 1k Kontext: 768 Tok/s Prompt-Verarbeitung, 56,6 Tok/s Generierung, 65,5 GB Spitzenspeicher
- 8k Kontext: 940 Tok/s Prompt-Verarbeitung, 51,4 Tok/s Generierung, 69,3 GB Spitzenspeicher
- 32k Kontext: 764 Tok/s Prompt-Verarbeitung, 42,4 Tok/s Generierung, 73,4 GB Spitzenspeicher
Kontinuierliches Batching (pp1024/tg128):
- 1x Batch: 56,6 Tok/s, 1,00x Beschleunigung
- 2x Batch: 92,1 Tok/s, 1,63x Beschleunigung
- 4x Batch: 135,1 Tok/s, 2,39x Beschleunigung
- 8x Batch: 190,2 Tok/s, 3,36x Beschleunigung

Einrichtung mit OpenClaw

Laden Sie die DMG von den Releases herunter und ziehen Sie sie in den Applications-Ordner
Richten Sie es auf Ihr Modellverzeichnis (verwendet LM Studio-Modelle, kein erneuter Download nötig)
Fügen Sie oMLX als benutzerdefinierten Provider in openclaw.json hinzu
Das Web-Dashboard generiert die genaue Konfiguration – kein Terminal erforderlich