oMLX SSD KV Cache for Apple Silicon: Cut OpenClaw Response Time 90s to 5s

Ce que oMLX résout

Exécuter OpenClaw localement signifie généralement envoyer le même énorme prompt système (20 à 30k tokens couvrant les outils, compétences, contexte de l'espace de travail) à chaque requête. Bien qu'Ollama et LM Studio mettent en cache l'état KV, ils invalident tout le cache et le recalculent à partir de zéro lorsque le contexte change en milieu de session, ce qui entraîne des temps de réponse de 30 à 90 secondes.

oMLX résout ce problème en persistant les blocs de cache KV sur SSD au format safetensors. Lorsqu'un préfixe déjà vu revient, il est restauré depuis le disque au lieu d'être recalculé - cela fonctionne entre les requêtes et les redémarrages du serveur. Étant donné que le prompt système d'OpenClaw est principalement statique (seuls les horodatages et les métadonnées d'exécution changent), la mise en cache SSD signifie que seules les parties modifiées sont recalculées.

Benchmarks de performance

Testé avec Qwen3.5-122B-A10B-4bit sur M3 Ultra 512GB :

Benchmarks pour une seule requête :
- Contexte de 1k : 768 tok/s de traitement du prompt, 56,6 tok/s de génération, 65,5 Go de mémoire maximale
- Contexte de 8k : 940 tok/s de traitement du prompt, 51,4 tok/s de génération, 69,3 Go de mémoire maximale
- Contexte de 32k : 764 tok/s de traitement du prompt, 42,4 tok/s de génération, 73,4 Go de mémoire maximale
Batching continu (pp1024/tg128) :
- 1x batch : 56,6 tok/s, accélération de 1,00x
- 2x batch : 92,1 tok/s, accélération de 1,63x
- 4x batch : 135,1 tok/s, accélération de 2,39x
- 8x batch : 190,2 tok/s, accélération de 3,36x

Configuration avec OpenClaw

Téléchargez le DMG depuis les versions et glissez-le dans Applications
Pointez-le vers votre répertoire de modèles (réutilise les modèles de LM Studio, pas besoin de retélécharger)
Ajoutez oMLX comme fournisseur personnalisé dans openclaw.json
Le tableau de bord web génère la configuration exacte - pas besoin de terminal

Fonctionnalités supplémentaires

Service multi-modèles : LLM + embedding + reranker simultanément
Appel d'outils pour tous les formats majeurs (JSON, Qwen, Gemma, GLM) + MCP
Troncature des résultats d'outils - tronque les sorties d'outils trop volumineuses
Compatibilité directe avec OpenAI + Anthropic /v1/messages
Application native macOS dans la barre de menu (pas Electron)
Licence Apache 2.0, 100% open source

📖 Lire la source complète : r/openclaw

oMLX introduit la mise en cache SSD KV pour Apple Silicon, réduisant les temps de réponse d'OpenClaw de 30 à 90 secondes à 5 secondes.

Ce que oMLX résout

Benchmarks de performance

Configuration avec OpenClaw

Fonctionnalités supplémentaires

👀 See Also

Codegraph : Un graphe de connaissances pré-indexé réduit de 94 % les appels d'outils Claude/Cursor

Claude Code Ajoute un Mode Automatique pour les Décisions d'Autorisation

ATLAS : Pipeline de calcul en temps de test open-source pour Qwen3-14B atteint des performances de codage de niveau frontière

Mia : Démon d'espace de travail IA local avec application Android native et diffusion P2P