SSD KV кэширование oMLX: сокращение времени ответа OpenClaw с 90 до 5 секунд

Что решает oMLX

Запуск OpenClaw локально обычно означает отправку одного и того же огромного системного промпта (20-30 тысяч токенов, охватывающих инструменты, навыки, контекст рабочей области) при каждом запросе. Хотя Ollama и LM Studio кэшируют KV-состояние, они инвалидируют весь кэш и пересчитывают его с нуля при смене контекста в середине сессии, что приводит к времени ответа в 30-90 секунд.

oMLX решает эту проблему, сохраняя блоки KV-кэша на SSD в формате safetensors. Когда возвращается ранее увиденный префикс, он восстанавливается с диска вместо пересчёта — это работает между запросами и перезапусками сервера. Поскольку системный промпт OpenClaw в основном статичен (меняются только временные метки и метаданные времени выполнения), кэширование на SSD означает, что пересчитываются только изменённые части.

Бенчмарки производительности

Протестировано на Qwen3.5-122B-A10B-4bit на M3 Ultra 512GB:

Бенчмарки одиночного запроса:
- Контекст 1k: 768 ток/с обработки промпта, 56.6 ток/с генерации, пиковая память 65.5 ГБ
- Контекст 8k: 940 ток/с обработки промпта, 51.4 ток/с генерации, пиковая память 69.3 ГБ
- Контекст 32k: 764 ток/с обработки промпта, 42.4 ток/с генерации, пиковая память 73.4 ГБ
Непрерывное батчирование (pp1024/tg128):
- Батч 1x: 56.6 ток/с, ускорение 1.00x
- Батч 2x: 92.1 ток/с, ускорение 1.63x
- Батч 4x: 135.1 ток/с, ускорение 2.39x
- Батч 8x: 190.2 ток/с, ускорение 3.36x

Настройка с OpenClaw

Скачайте DMG из релизов и перетащите в Applications
Укажите путь к каталогу с моделями (использует модели LM Studio, повторная загрузка не требуется)
Добавьте oMLX как пользовательского провайдера в openclaw.json
Веб-панель генерирует точную конфигурацию — терминал не нужен

Дополнительные возможности

Обслуживание нескольких моделей: LLM + эмбеддинг + реранкер одновременно
Вызов инструментов для всех основных форматов (JSON, Qwen, Gemma, GLM) + MCP
Обрезка результатов инструментов — усекает слишком большие выходные данные инструментов
Полная совместимость с OpenAI + Anthropic /v1/messages
Нативное приложение для macOS в строке меню (не Electron)
Лицензия Apache 2.0, 100% открытый исходный код

📖 Read the full source: r/openclaw

oMLX представляет SSD KV кэширование для Apple Silicon, сокращая время ответа OpenClaw с 30-90 секунд до 5 секунд.

Что решает oMLX

Бенчмарки производительности

Настройка с OpenClaw

Дополнительные возможности

👀 Смотрите также

Memento v1.0: Локальная постоянная память для AI-агентов программирования

Claude Desktop + Blender через MCP: Рабочий процесс реального времени в 3D замыкает цикл обратной связи

Пользовательский GIF-спиннер для Claude Code через конвертацию шрифта COLR

Клод AI оценивает каждый стартап YC Spring 2026 — полная сводка конвейера