oMLX apresenta o cache SSD KV para o Apple Silicon, reduzindo os tempos de resposta do OpenClaw de 30 a 90 segundos para 5 segundos

O que o oMLX resolve
Executar o OpenClaw localmente normalmente significa enviar o mesmo prompt de sistema massivo (20-30 mil tokens cobrindo ferramentas, habilidades, contexto do workspace) em cada solicitação. Embora o Ollama e o LM Studio armazenem em cache o estado KV, eles invalidam todo o cache e recalculam do zero quando o contexto muda no meio da sessão, resultando em tempos de resposta de 30 a 90 segundos.
O oMLX corrige isso persistindo blocos de cache KV no SSD no formato safetensors. Quando um prefixo visto anteriormente retorna, ele é restaurado do disco em vez de recalculado - funcionando entre solicitações e reinicializações do servidor. Como o prompt de sistema do OpenClaw é majoritariamente estático (apenas timestamps e metadados de runtime mudam), o cache em SSD significa que apenas as partes alteradas são recalculadas.
Benchmarks de desempenho
Testado com Qwen3.5-122B-A10B-4bit no M3 Ultra 512GB:
- Benchmarks de solicitação única:
- Contexto de 1k: 768 tok/s de processamento de prompt, 56.6 tok/s de geração, 65.5 GB de memória de pico
- Contexto de 8k: 940 tok/s de processamento de prompt, 51.4 tok/s de geração, 69.3 GB de memória de pico
- Contexto de 32k: 764 tok/s de processamento de prompt, 42.4 tok/s de geração, 73.4 GB de memória de pico
- Batch contínuo (pp1024/tg128):
- Batch 1x: 56.6 tok/s, aceleração de 1.00x
- Batch 2x: 92.1 tok/s, aceleração de 1.63x
- Batch 4x: 135.1 tok/s, aceleração de 2.39x
- Batch 8x: 190.2 tok/s, aceleração de 3.36x
Configuração com OpenClaw
- Baixe o DMG das releases e arraste para Aplicações
- Aponte para o diretório do seu modelo (reutiliza modelos do LM Studio, sem necessidade de novo download)
- Adicione o oMLX como um provedor personalizado em openclaw.json
- O painel web gera a configuração exata - sem necessidade de terminal
Recursos adicionais
- Serving multi-modelo: LLM + embedding + reranker simultaneamente
- Chamada de ferramentas para todos os principais formatos (JSON, Qwen, Gemma, GLM) + MCP
- Trimming de resultados de ferramentas - trunca saídas de ferramentas muito grandes
- Compatibilidade drop-in com OpenAI + Anthropic /v1/messages
- Aplicativo nativo da barra de menu do macOS (não Electron)
- Licença Apache 2.0, 100% código aberto
📖 Leia a fonte completa: r/openclaw
👀 See Also

md-viewer: Um Visualizador de Markdown com Recarga Automática para Fluxos de Trabalho de Código no Claude
md-viewer é uma ferramenta leve em Rust que oferece visualização de markdown com recarregamento automático para arquivos gerados pelo Claude Code. Ele funciona independentemente de editores, suporta diagramas Mermaid e pode ser instalado via AUR, Snap ou Cargo.

A ferramenta de correção de memória do OpenClaw resolve a degradação de desempenho.
Um novo comando de barra chamado /claw_memory_fix ajuda a limpar arquivos de memória do OpenClaw quando o agente esquece credenciais ou permissões. A ferramenta implementa técnicas da Alibaba, engenharia do GitHub, MemGPT e pesquisas de janeiro de 2026 sobre gerenciamento de memória.

Script do PowerShell automatiza a configuração do Docker do OpenClaw no Windows
Um script PowerShell lida com peculiaridades de rede específicas do Windows e configuração do Docker para OpenClaw, automatizando verificações, obtenção de imagens, orientações de configuração e implantação de contêineres.

Centro de Comando Claude: Painel de Código Aberto para Análises de Código Claude
O Claude Command Center é um painel local que lê seu diretório ~/.claude/ para exibir dados de sessão do Claude Code, custos e configurações de servidor MCP. Construído inteiramente usando Claude Code com um backend Express e frontend React, ele não requer configuração e roda localmente sem nuvem ou telemetria.