oMLX presenta el almacenamiento en caché SSD KV para Apple Silicon, reduciendo los tiempos de respuesta de OpenClaw de 30-90 segundos a 5 segundos.

Lo que resuelve oMLX
Ejecutar OpenClaw localmente normalmente implica enviar el mismo mensaje de sistema masivo (20-30k tokens que cubren herramientas, habilidades, contexto del espacio de trabajo) en cada solicitud. Aunque Ollama y LM Studio almacenan en caché el estado KV, invalidan toda la caché y la recalculan desde cero cuando el contexto cambia a mitad de sesión, lo que resulta en tiempos de respuesta de 30-90 segundos.
oMLX soluciona esto al persistir los bloques de caché KV en SSD en formato safetensors. Cuando un prefijo previamente visto regresa, se restaura desde el disco en lugar de recalcularse, funcionando entre solicitudes y reinicios del servidor. Dado que el mensaje de sistema de OpenClaw es mayormente estático (solo cambian las marcas de tiempo y los metadatos de tiempo de ejecución), el almacenamiento en caché SSD significa que solo se recalculan las partes modificadas.
Puntos de referencia de rendimiento
Probado con Qwen3.5-122B-A10B-4bit en M3 Ultra 512GB:
- Puntos de referencia de una sola solicitud:
- Contexto de 1k: 768 tok/s procesamiento de mensajes, 56.6 tok/s generación, 65.5 GB memoria máxima
- Contexto de 8k: 940 tok/s procesamiento de mensajes, 51.4 tok/s generación, 69.3 GB memoria máxima
- Contexto de 32k: 764 tok/s procesamiento de mensajes, 42.4 tok/s generación, 73.4 GB memoria máxima
- Procesamiento por lotes continuo (pp1024/tg128):
- Lote 1x: 56.6 tok/s, 1.00x aceleración
- Lote 2x: 92.1 tok/s, 1.63x aceleración
- Lote 4x: 135.1 tok/s, 2.39x aceleración
- Lote 8x: 190.2 tok/s, 3.36x aceleración
Configuración con OpenClaw
- Descarga el DMG desde las versiones y arrástralo a Aplicaciones
- Apúntalo a tu directorio de modelos (reutiliza modelos de LM Studio, no es necesario volver a descargar)
- Añade oMLX como proveedor personalizado en openclaw.json
- El panel web genera la configuración exacta, no se necesita terminal
Características adicionales
- Servicio multi-modelo: LLM + incrustación + reranker simultáneamente
- Llamada a herramientas para todos los formatos principales (JSON, Qwen, Gemma, GLM) + MCP
- Recorte de resultados de herramientas: trunca salidas de herramientas demasiado grandes
- Compatibilidad directa con OpenAI + Anthropic /v1/messages
- Aplicación nativa de barra de menús de macOS (no Electron)
- Licencia Apache 2.0, 100% código abierto
📖 Read the full source: r/openclaw
👀 Ver también

La herramienta Snip permite la comunicación visual con agentes de IA de codificación.
Snip es una herramienta gratuita que permite a los desarrolladores capturar pantallas, anotar y dibujar para mostrar visualmente a los agentes de IA lo que quieren decir, mientras que los agentes pueden generar diagramas o cargar imágenes directamente mediante CLI o MCP. Actualmente funciona en Macs con Apple Silicon, con soporte para diagramas Mermaid y soporte HTML en desarrollo.

La herramienta Depct recopila datos de tiempo de ejecución para ayudar a Claude a depurar problemas de producción.
Depct es una herramienta que recopila instrumentación en tiempo de ejecución de aplicaciones Node.js, construye gráficos a partir de los datos y los envía a Claude a través de AWS Bedrock para ayudar a depurar fallos intermitentes en producción. También genera diagramas de arquitectura y mapas de dependencias a partir del comportamiento en tiempo de ejecución.

md-viewer: Un Visor de Markdown con Recarga en Vivo para Flujos de Trabajo de Código Claude
md-viewer es una herramienta ligera de Rust que proporciona visualización de markdown con recarga en vivo para archivos generados por Claude Code. Se ejecuta de forma independiente de los editores, admite diagramas Mermaid y se instala mediante AUR, Snap o Cargo.

Markdown como Protocolo para Interfaz de Usuario Agéntica con Ejecución en Flujo
Un prototipo utiliza Markdown como protocolo unificado para que los agentes de IA transmitan texto, código ejecutable y datos en una sola respuesta. Cuenta con ejecución en streaming donde el código se ejecuta declaración por declaración a medida que llega y una primitiva mount() para crear interfaces de usuario React con flujo de datos entre cliente, servidor y LLM.