oMLX introduit la mise en cache SSD KV pour Apple Silicon, réduisant les temps de réponse d'OpenClaw de 30 à 90 secondes à 5 secondes.

✍️ OpenClawRadar📅 Publié: March 7, 2026🔗 Source
oMLX introduit la mise en cache SSD KV pour Apple Silicon, réduisant les temps de réponse d'OpenClaw de 30 à 90 secondes à 5 secondes.
Ad

Ce que oMLX résout

Exécuter OpenClaw localement signifie généralement envoyer le même énorme prompt système (20 à 30k tokens couvrant les outils, compétences, contexte de l'espace de travail) à chaque requête. Bien qu'Ollama et LM Studio mettent en cache l'état KV, ils invalident tout le cache et le recalculent à partir de zéro lorsque le contexte change en milieu de session, ce qui entraîne des temps de réponse de 30 à 90 secondes.

oMLX résout ce problème en persistant les blocs de cache KV sur SSD au format safetensors. Lorsqu'un préfixe déjà vu revient, il est restauré depuis le disque au lieu d'être recalculé - cela fonctionne entre les requêtes et les redémarrages du serveur. Étant donné que le prompt système d'OpenClaw est principalement statique (seuls les horodatages et les métadonnées d'exécution changent), la mise en cache SSD signifie que seules les parties modifiées sont recalculées.

Benchmarks de performance

Testé avec Qwen3.5-122B-A10B-4bit sur M3 Ultra 512GB :

  • Benchmarks pour une seule requête :
    • Contexte de 1k : 768 tok/s de traitement du prompt, 56,6 tok/s de génération, 65,5 Go de mémoire maximale
    • Contexte de 8k : 940 tok/s de traitement du prompt, 51,4 tok/s de génération, 69,3 Go de mémoire maximale
    • Contexte de 32k : 764 tok/s de traitement du prompt, 42,4 tok/s de génération, 73,4 Go de mémoire maximale
  • Batching continu (pp1024/tg128) :
    • 1x batch : 56,6 tok/s, accélération de 1,00x
    • 2x batch : 92,1 tok/s, accélération de 1,63x
    • 4x batch : 135,1 tok/s, accélération de 2,39x
    • 8x batch : 190,2 tok/s, accélération de 3,36x
Ad

Configuration avec OpenClaw

  • Téléchargez le DMG depuis les versions et glissez-le dans Applications
  • Pointez-le vers votre répertoire de modèles (réutilise les modèles de LM Studio, pas besoin de retélécharger)
  • Ajoutez oMLX comme fournisseur personnalisé dans openclaw.json
  • Le tableau de bord web génère la configuration exacte - pas besoin de terminal

Fonctionnalités supplémentaires

  • Service multi-modèles : LLM + embedding + reranker simultanément
  • Appel d'outils pour tous les formats majeurs (JSON, Qwen, Gemma, GLM) + MCP
  • Troncature des résultats d'outils - tronque les sorties d'outils trop volumineuses
  • Compatibilité directe avec OpenAI + Anthropic /v1/messages
  • Application native macOS dans la barre de menu (pas Electron)
  • Licence Apache 2.0, 100% open source

📖 Lire la source complète : r/openclaw

Ad

👀 See Also

Projet d'autorecherche de Karpathy : des agents IA exécutent des expériences d'entraînement de LLM pendant la nuit.
Tools

Projet d'autorecherche de Karpathy : des agents IA exécutent des expériences d'entraînement de LLM pendant la nuit.

Andrej Karpathy a publié un projet d'autorecherche minimal où un agent IA modifie train.py, exécute des expériences d'entraînement nanochat de 5 minutes, vérifie si val_bpb s'est amélioré, et répète le processus pendant la nuit sur un seul GPU.

OpenClawRadar
ModelFitAI : Déployez des agents IA sans configuration VPS, conçu avec Claude Code
Tools

ModelFitAI : Déployez des agents IA sans configuration VPS, conçu avec Claude Code

ModelFitAI est une plateforme qui permet aux développeurs de déployer des agents d'IA directement sur son infrastructure, éliminant la configuration de VPS, la configuration Docker et les sessions SSH. L'ensemble de la plateforme a été construite par un fondateur solo en utilisant Claude Code.

OpenClawRadar
Le goulot d'étranglement dans les agents IA parallèles : la file d'attente d'approbation humaine
Tools

Le goulot d'étranglement dans les agents IA parallèles : la file d'attente d'approbation humaine

Un développeur exécutant des agents Claude Code en parallèle décrit le « bottleself » — le point où le parallélisme cesse d'augmenter la production et commence à créer un backlog d'approbations humaines. Sa solution : un planificateur qui décompose les objectifs en sous-tâches, lance des agents, et n'interrompt que pour les décisions non résolues.

OpenClawRadar
Dévoilement d'OpenClaw : Comment il renforce les agents d'IA en programmation
Tools

Dévoilement d'OpenClaw : Comment il renforce les agents d'IA en programmation

Découvrez comment OpenClaw transforme les agents de codage IA, propulsant l'automatisation dans divers domaines.

OpenClawRadar