oMLX: Caché SSD KV para Apple Silicon reduce respuesta de OpenClaw de 90s a 5s

Lo que resuelve oMLX

Ejecutar OpenClaw localmente normalmente implica enviar el mismo mensaje de sistema masivo (20-30k tokens que cubren herramientas, habilidades, contexto del espacio de trabajo) en cada solicitud. Aunque Ollama y LM Studio almacenan en caché el estado KV, invalidan toda la caché y la recalculan desde cero cuando el contexto cambia a mitad de sesión, lo que resulta en tiempos de respuesta de 30-90 segundos.

oMLX soluciona esto al persistir los bloques de caché KV en SSD en formato safetensors. Cuando un prefijo previamente visto regresa, se restaura desde el disco en lugar de recalcularse, funcionando entre solicitudes y reinicios del servidor. Dado que el mensaje de sistema de OpenClaw es mayormente estático (solo cambian las marcas de tiempo y los metadatos de tiempo de ejecución), el almacenamiento en caché SSD significa que solo se recalculan las partes modificadas.

Puntos de referencia de rendimiento

Probado con Qwen3.5-122B-A10B-4bit en M3 Ultra 512GB:

Puntos de referencia de una sola solicitud:
- Contexto de 1k: 768 tok/s procesamiento de mensajes, 56.6 tok/s generación, 65.5 GB memoria máxima
- Contexto de 8k: 940 tok/s procesamiento de mensajes, 51.4 tok/s generación, 69.3 GB memoria máxima
- Contexto de 32k: 764 tok/s procesamiento de mensajes, 42.4 tok/s generación, 73.4 GB memoria máxima
Procesamiento por lotes continuo (pp1024/tg128):
- Lote 1x: 56.6 tok/s, 1.00x aceleración
- Lote 2x: 92.1 tok/s, 1.63x aceleración
- Lote 4x: 135.1 tok/s, 2.39x aceleración
- Lote 8x: 190.2 tok/s, 3.36x aceleración

Configuración con OpenClaw

Descarga el DMG desde las versiones y arrástralo a Aplicaciones
Apúntalo a tu directorio de modelos (reutiliza modelos de LM Studio, no es necesario volver a descargar)
Añade oMLX como proveedor personalizado en openclaw.json
El panel web genera la configuración exacta, no se necesita terminal

Características adicionales

Servicio multi-modelo: LLM + incrustación + reranker simultáneamente
Llamada a herramientas para todos los formatos principales (JSON, Qwen, Gemma, GLM) + MCP
Recorte de resultados de herramientas: trunca salidas de herramientas demasiado grandes
Compatibilidad directa con OpenAI + Anthropic /v1/messages
Aplicación nativa de barra de menús de macOS (no Electron)
Licencia Apache 2.0, 100% código abierto

📖 Read the full source: r/openclaw

oMLX presenta el almacenamiento en caché SSD KV para Apple Silicon, reduciendo los tiempos de respuesta de OpenClaw de 30-90 segundos a 5 segundos.

Lo que resuelve oMLX

Puntos de referencia de rendimiento

Configuración con OpenClaw

Características adicionales

👀 Ver también

La herramienta Snip permite la comunicación visual con agentes de IA de codificación.

La herramienta Depct recopila datos de tiempo de ejecución para ayudar a Claude a depurar problemas de producción.

md-viewer: Un Visor de Markdown con Recarga en Vivo para Flujos de Trabajo de Código Claude

Markdown como Protocolo para Interfaz de Usuario Agéntica con Ejecución en Flujo