Форк vllm-mlx добавляет вызов инструментов и кэширование промптов для локальных агентов ИИ в программировании.

✍️ OpenClawRadar📅 Опубликовано: 26 февраля 2026 г.🔗 Source

Разработчик опубликовал модифицированную версию vllm-mlx, которая исправляет несколько проблем для запуска AI-агентов программирования, таких как OpenClaw, локально на Mac. Форк добавляет рабочий вызов инструментов и кэширование промптов в совместимый с OpenAI сервер для Apple Silicon.

Ключевые исправления и функции

Разработчик сделал 37 коммитов поверх основной версии vllm-mlx для решения конкретных проблем:

Вызов инструментов: Добавлен флаг --tool-call-parser hermes — вызовы инструментов Qwen3-Coder-Next работают из коробки
MiniMax-M2.5: Добавлен потоковый и непотоковый парсинг вызовов инструментов с точностью 4/4 в тестах на вызов функций (погода, поиск, выполнение кода, мультиинструменты)
Кэш промптов: Добавлено постоянное KV-кэширование между запросами в SimpleEngine — одинаковый системный промпт и история диалога предзаполняют только новые токены
Разделение рассуждений: Построен эвристический парсер для выводов MiniMax, где рассуждения были встроены без тегов — снижена частота утечек с 60% до 0%

Улучшения производительности

При контексте в 33K токенов время до первого токена (TTFT) улучшилось с 28 секунд до 0,3 секунды при попадании в кэш. Тесты на Mac Studio M3 Ultra 256GB:

Qwen3-Coder-Next 4bit: 42 ГБ ОЗУ, 70 токенов/с декодирование, 1270 токенов/с предзаполнение
Qwen3-Coder-Next 6bit: 60 ГБ ОЗУ, 65 токенов/с декодирование, 1090-1440 токенов/с предзаполнение
Qwen3-Coder-Next 8bit: 75 ГБ ОЗУ, ~45 токенов/с декодирование, ~900 токенов/с предзаполнение
MiniMax-M2.5 4bit: 120 ГБ ОЗУ, 33-38 токенов/с декодирование, 430-500 токенов/с предзаполнение

Разработчик рекомендует Qwen3-Coder-Next 6bit как оптимальный вариант для интерактивного программирования, отмечая, что качество заметно лучше, чем у 4bit (где иногда возникал искажённый вывод).

Инструкции по установке

pip install git+https://github.com/raullenchai/vllm-mlx.git
python -c "from mlx_lm import load; load('lmstudio-community/Qwen3-Coder-Next-MLX-6bit')"
python -m vllm_mlx.server \
  --model lmstudio-community/Qwen3-Coder-Next-MLX-6bit \
  --tool-call-parser hermes \
  --prefill-step-size 8192 \
  --kv-bits 8 \
  --port 8000

Затем направьте OpenClaw или любой клиент OpenAI SDK на http://localhost:8000/v1.

Требования к оборудованию

Qwen3-Coder-Next 4bit: 42 ГБ — помещается на M2 Pro 64 ГБ или лучше
Qwen3-Coder-Next 6bit: 60 ГБ — требуется M2/M3/M4 Max 96 ГБ+ или Ultra
MiniMax-M2.5: 120 ГБ — только Ultra 192 ГБ+

Что не сработало

Спекулятивное декодирование с Qwen3-0.6B в качестве черновой модели — в mlx-lm есть известная ошибка с Qwen3 (пропуск токенов, issue #846)
DeepSeek-R1-Distill-70B для OpenClaw — отлично справляется с рассуждениями, но вызов инструментов ненадёжен

Репозиторий содержит 1500+ тестов и лицензирован под Apache 2.0.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Инструменты

PaperclipAI: Открытый исходный код для управления компаниями без участия человека

PaperclipAI — это фреймворк с открытым исходным кодом для оркестрации, предназначенный для полностью автоматизированных компаний. Проект набрал 14 000 звёзд на GitHub в первую неделю своего существования.

10 мар. 2026 г., 23:45 UTC

OpenClawRadar

Инструменты

Агент OpenClaw получает возможность телефонных звонков благодаря пользовательскому навыку.

Разработчик создал пользовательский навык для самостоятельно размещенных агентов OpenClaw, который добавляет функциональность телефонных звонков, позволяя агенту совершать вызовы по триггерам, таким как завершение сборки или сбои сервера. Реализация обеспечивает голосовое взаимодействие с полными чат-возможностями, включая веб-поиск и настройку оповещений.

27 февр. 2026 г., 15:45 UTC

OpenClawRadar

Инструменты

Совместный ИИ-агент вызывает проблемы с вводом с клавиатуры на ноутбуках с Windows

Пользователь сообщил, что агент Cowork AI вызвал постоянные проблемы с вводом с клавиатуры на Dell Latitude 9430, когда регистрировались только первые несколько нажатий клавиш. Решение включало специальную процедуру сброса встроенного контроллера для моделей Latitude.

18 апр. 2026 г., 03:45 UTC

OpenClawRadar

Инструменты

Interact MCP: Быстрый веб-сёрфинг для Claude Code с постоянным браузером Chromium

Interact MCP — это инструмент Model Context Protocol, который поддерживает постоянный браузер Chromium в процессе, сокращая время выполнения действий в браузере с 2-5 секунд до 5-50 мс после первого вызова. Он включает систему ссылок для взаимодействия с элементами без CSS-селекторов и содержит 46 инструментов для веб-автоматизации.

31 мар. 2026 г., 07:45 UTC

OpenClawRadar