oMLX представляет SSD KV кэширование для Apple Silicon, сокращая время ответа OpenClaw с 30-90 секунд до 5 секунд.

Что решает oMLX
Запуск OpenClaw локально обычно означает отправку одного и того же огромного системного промпта (20-30 тысяч токенов, охватывающих инструменты, навыки, контекст рабочей области) при каждом запросе. Хотя Ollama и LM Studio кэшируют KV-состояние, они инвалидируют весь кэш и пересчитывают его с нуля при смене контекста в середине сессии, что приводит к времени ответа в 30-90 секунд.
oMLX решает эту проблему, сохраняя блоки KV-кэша на SSD в формате safetensors. Когда возвращается ранее увиденный префикс, он восстанавливается с диска вместо пересчёта — это работает между запросами и перезапусками сервера. Поскольку системный промпт OpenClaw в основном статичен (меняются только временные метки и метаданные времени выполнения), кэширование на SSD означает, что пересчитываются только изменённые части.
Бенчмарки производительности
Протестировано на Qwen3.5-122B-A10B-4bit на M3 Ultra 512GB:
- Бенчмарки одиночного запроса:
- Контекст 1k: 768 ток/с обработки промпта, 56.6 ток/с генерации, пиковая память 65.5 ГБ
- Контекст 8k: 940 ток/с обработки промпта, 51.4 ток/с генерации, пиковая память 69.3 ГБ
- Контекст 32k: 764 ток/с обработки промпта, 42.4 ток/с генерации, пиковая память 73.4 ГБ
- Непрерывное батчирование (pp1024/tg128):
- Батч 1x: 56.6 ток/с, ускорение 1.00x
- Батч 2x: 92.1 ток/с, ускорение 1.63x
- Батч 4x: 135.1 ток/с, ускорение 2.39x
- Батч 8x: 190.2 ток/с, ускорение 3.36x
Настройка с OpenClaw
- Скачайте DMG из релизов и перетащите в Applications
- Укажите путь к каталогу с моделями (использует модели LM Studio, повторная загрузка не требуется)
- Добавьте oMLX как пользовательского провайдера в openclaw.json
- Веб-панель генерирует точную конфигурацию — терминал не нужен
Дополнительные возможности
- Обслуживание нескольких моделей: LLM + эмбеддинг + реранкер одновременно
- Вызов инструментов для всех основных форматов (JSON, Qwen, Gemma, GLM) + MCP
- Обрезка результатов инструментов — усекает слишком большие выходные данные инструментов
- Полная совместимость с OpenAI + Anthropic /v1/messages
- Нативное приложение для macOS в строке меню (не Electron)
- Лицензия Apache 2.0, 100% открытый исходный код
📖 Read the full source: r/openclaw
👀 Смотрите также

Агент OpenClaw получает возможность телефонных звонков благодаря пользовательскому навыку.
Разработчик создал пользовательский навык для самостоятельно размещенных агентов OpenClaw, который добавляет функциональность телефонных звонков, позволяя агенту совершать вызовы по триггерам, таким как завершение сборки или сбои сервера. Реализация обеспечивает голосовое взаимодействие с полными чат-возможностями, включая веб-поиск и настройку оповещений.

Контекст Lean: Плагин Claude Code преобразует многословную документацию в файлы, оптимизированные для агентов.
Бесплатный плагин с открытым исходным кодом для Claude Code под названием Lean Context анализирует документацию проекта и удаляет контент, который AI-агенты могут обнаружить через поиск (grepping), оставляя только важные неочевидные команды, подводные камни и особенности окружения. В тесте с .NET e-commerce проектом он сократил 8 документов общим объёмом в 1 263 строки до всего 23 строк.

VT Code: Агент программирования с TUI на Rust с открытым исходным кодом, поддержкой нескольких провайдеров и навыками агента
VT Code — это терминальный ИИ-агент (TUI) на Rust, поддерживающий Anthropic, OpenAI, Gemini и Codex, с локальным выводом через LM Studio и Ollama. Включает навыки агента, протокол контекста модели и клиентский протокол агента.

Skill Seekers v3.2.0 добавляет извлечение обучающих материалов с YouTube для навыков Claude.
Skill Seekers v3.2.0 теперь извлекает контент из обучающих видео на YouTube для создания структурированных файлов SKILL.md для Claude. Инструмент использует двухэтапный рабочий процесс с улучшением ИИ для очистки результатов OCR и создания полезной документации из видеоконтента.