oMLX представляет SSD KV кэширование для Apple Silicon, сокращая время ответа OpenClaw с 30-90 секунд до 5 секунд.

Что решает oMLX
Запуск OpenClaw локально обычно означает отправку одного и того же огромного системного промпта (20-30 тысяч токенов, охватывающих инструменты, навыки, контекст рабочей области) при каждом запросе. Хотя Ollama и LM Studio кэшируют KV-состояние, они инвалидируют весь кэш и пересчитывают его с нуля при смене контекста в середине сессии, что приводит к времени ответа в 30-90 секунд.
oMLX решает эту проблему, сохраняя блоки KV-кэша на SSD в формате safetensors. Когда возвращается ранее увиденный префикс, он восстанавливается с диска вместо пересчёта — это работает между запросами и перезапусками сервера. Поскольку системный промпт OpenClaw в основном статичен (меняются только временные метки и метаданные времени выполнения), кэширование на SSD означает, что пересчитываются только изменённые части.
Бенчмарки производительности
Протестировано на Qwen3.5-122B-A10B-4bit на M3 Ultra 512GB:
- Бенчмарки одиночного запроса:
- Контекст 1k: 768 ток/с обработки промпта, 56.6 ток/с генерации, пиковая память 65.5 ГБ
- Контекст 8k: 940 ток/с обработки промпта, 51.4 ток/с генерации, пиковая память 69.3 ГБ
- Контекст 32k: 764 ток/с обработки промпта, 42.4 ток/с генерации, пиковая память 73.4 ГБ
- Непрерывное батчирование (pp1024/tg128):
- Батч 1x: 56.6 ток/с, ускорение 1.00x
- Батч 2x: 92.1 ток/с, ускорение 1.63x
- Батч 4x: 135.1 ток/с, ускорение 2.39x
- Батч 8x: 190.2 ток/с, ускорение 3.36x
Настройка с OpenClaw
- Скачайте DMG из релизов и перетащите в Applications
- Укажите путь к каталогу с моделями (использует модели LM Studio, повторная загрузка не требуется)
- Добавьте oMLX как пользовательского провайдера в openclaw.json
- Веб-панель генерирует точную конфигурацию — терминал не нужен
Дополнительные возможности
- Обслуживание нескольких моделей: LLM + эмбеддинг + реранкер одновременно
- Вызов инструментов для всех основных форматов (JSON, Qwen, Gemma, GLM) + MCP
- Обрезка результатов инструментов — усекает слишком большие выходные данные инструментов
- Полная совместимость с OpenAI + Anthropic /v1/messages
- Нативное приложение для macOS в строке меню (не Electron)
- Лицензия Apache 2.0, 100% открытый исходный код
📖 Read the full source: r/openclaw
👀 Смотрите также

Memento v1.0: Локальная постоянная память для AI-агентов программирования
Memento v1.0 — это полностью локальный слой памяти для AI-агентов программирования, который запускает эмбеддинги, хранение и поиск на вашем компьютере без зависимостей от облачных сервисов. Использует эмбеддинги all-MiniLM-L6-v2, индексацию HNSW и поддерживает несколько IDE с 17 инструментами MCP.

Claude Desktop + Blender через MCP: Рабочий процесс реального времени в 3D замыкает цикл обратной связи
Открытый аддон для Blender запускает MCP-сервер внутри Blender, позволяя Claude Desktop проверять сцены, создавать объекты, рендерить изображения и читать результаты — замыкая цикл обратной связи, который обычно требует копирования и вставки скриптов.

Пользовательский GIF-спиннер для Claude Code через конвертацию шрифта COLR
Разработчик создал метод для замены стандартного спиннера Claude Code на любой анимированный GIF, преобразуя GIF в цветной шрифт OpenType COLR и модифицируя спиннер для циклического перебора глифов, представляющих каждый кадр. Инструмент в настоящее время поддерживает Windows, версии для macOS/Linux запланированы.

Клод AI оценивает каждый стартап YC Spring 2026 — полная сводка конвейера
Пользователь Reddit запустил Claude для каждой стартап-компании YC Spring 2026, собирая данные из LinkedIn и прессы, чтобы присвоить рейтинг от S до D. Большинство получили оценку B или C.