oMLX Cache SSD KV no Apple Silicon: Reduza Resposta OpenClaw para 5s

O que o oMLX resolve

Executar o OpenClaw localmente normalmente significa enviar o mesmo prompt de sistema massivo (20-30 mil tokens cobrindo ferramentas, habilidades, contexto do workspace) em cada solicitação. Embora o Ollama e o LM Studio armazenem em cache o estado KV, eles invalidam todo o cache e recalculam do zero quando o contexto muda no meio da sessão, resultando em tempos de resposta de 30 a 90 segundos.

O oMLX corrige isso persistindo blocos de cache KV no SSD no formato safetensors. Quando um prefixo visto anteriormente retorna, ele é restaurado do disco em vez de recalculado - funcionando entre solicitações e reinicializações do servidor. Como o prompt de sistema do OpenClaw é majoritariamente estático (apenas timestamps e metadados de runtime mudam), o cache em SSD significa que apenas as partes alteradas são recalculadas.

Benchmarks de desempenho

Testado com Qwen3.5-122B-A10B-4bit no M3 Ultra 512GB:

Benchmarks de solicitação única:
- Contexto de 1k: 768 tok/s de processamento de prompt, 56.6 tok/s de geração, 65.5 GB de memória de pico
- Contexto de 8k: 940 tok/s de processamento de prompt, 51.4 tok/s de geração, 69.3 GB de memória de pico
- Contexto de 32k: 764 tok/s de processamento de prompt, 42.4 tok/s de geração, 73.4 GB de memória de pico
Batch contínuo (pp1024/tg128):
- Batch 1x: 56.6 tok/s, aceleração de 1.00x
- Batch 2x: 92.1 tok/s, aceleração de 1.63x
- Batch 4x: 135.1 tok/s, aceleração de 2.39x
- Batch 8x: 190.2 tok/s, aceleração de 3.36x

Configuração com OpenClaw

Baixe o DMG das releases e arraste para Aplicações
Aponte para o diretório do seu modelo (reutiliza modelos do LM Studio, sem necessidade de novo download)
Adicione o oMLX como um provedor personalizado em openclaw.json
O painel web gera a configuração exata - sem necessidade de terminal

Recursos adicionais

Serving multi-modelo: LLM + embedding + reranker simultaneamente
Chamada de ferramentas para todos os principais formatos (JSON, Qwen, Gemma, GLM) + MCP
Trimming de resultados de ferramentas - trunca saídas de ferramentas muito grandes
Compatibilidade drop-in com OpenAI + Anthropic /v1/messages
Aplicativo nativo da barra de menu do macOS (não Electron)
Licença Apache 2.0, 100% código aberto

📖 Leia a fonte completa: r/openclaw