Форк vllm-mlx добавляет вызов инструментов и кэширование промптов для локальных агентов ИИ в программировании.

Разработчик опубликовал модифицированную версию vllm-mlx, которая исправляет несколько проблем для запуска AI-агентов программирования, таких как OpenClaw, локально на Mac. Форк добавляет рабочий вызов инструментов и кэширование промптов в совместимый с OpenAI сервер для Apple Silicon.
Ключевые исправления и функции
Разработчик сделал 37 коммитов поверх основной версии vllm-mlx для решения конкретных проблем:
- Вызов инструментов: Добавлен флаг
--tool-call-parser hermes— вызовы инструментов Qwen3-Coder-Next работают из коробки - MiniMax-M2.5: Добавлен потоковый и непотоковый парсинг вызовов инструментов с точностью 4/4 в тестах на вызов функций (погода, поиск, выполнение кода, мультиинструменты)
- Кэш промптов: Добавлено постоянное KV-кэширование между запросами в SimpleEngine — одинаковый системный промпт и история диалога предзаполняют только новые токены
- Разделение рассуждений: Построен эвристический парсер для выводов MiniMax, где рассуждения были встроены без тегов — снижена частота утечек с 60% до 0%
Улучшения производительности
При контексте в 33K токенов время до первого токена (TTFT) улучшилось с 28 секунд до 0,3 секунды при попадании в кэш. Тесты на Mac Studio M3 Ultra 256GB:
- Qwen3-Coder-Next 4bit: 42 ГБ ОЗУ, 70 токенов/с декодирование, 1270 токенов/с предзаполнение
- Qwen3-Coder-Next 6bit: 60 ГБ ОЗУ, 65 токенов/с декодирование, 1090-1440 токенов/с предзаполнение
- Qwen3-Coder-Next 8bit: 75 ГБ ОЗУ, ~45 токенов/с декодирование, ~900 токенов/с предзаполнение
- MiniMax-M2.5 4bit: 120 ГБ ОЗУ, 33-38 токенов/с декодирование, 430-500 токенов/с предзаполнение
Разработчик рекомендует Qwen3-Coder-Next 6bit как оптимальный вариант для интерактивного программирования, отмечая, что качество заметно лучше, чем у 4bit (где иногда возникал искажённый вывод).
Инструкции по установке
pip install git+https://github.com/raullenchai/vllm-mlx.git
python -c "from mlx_lm import load; load('lmstudio-community/Qwen3-Coder-Next-MLX-6bit')"
python -m vllm_mlx.server \
--model lmstudio-community/Qwen3-Coder-Next-MLX-6bit \
--tool-call-parser hermes \
--prefill-step-size 8192 \
--kv-bits 8 \
--port 8000
Затем направьте OpenClaw или любой клиент OpenAI SDK на http://localhost:8000/v1.
Требования к оборудованию
- Qwen3-Coder-Next 4bit: 42 ГБ — помещается на M2 Pro 64 ГБ или лучше
- Qwen3-Coder-Next 6bit: 60 ГБ — требуется M2/M3/M4 Max 96 ГБ+ или Ultra
- MiniMax-M2.5: 120 ГБ — только Ultra 192 ГБ+
Что не сработало
- Спекулятивное декодирование с Qwen3-0.6B в качестве черновой модели — в mlx-lm есть известная ошибка с Qwen3 (пропуск токенов, issue #846)
- DeepSeek-R1-Distill-70B для OpenClaw — отлично справляется с рассуждениями, но вызов инструментов ненадёжен
Репозиторий содержит 1500+ тестов и лицензирован под Apache 2.0.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Сервер OpenGalatea MCP подключает Claude к 3D-принтерам Prusa
OpenGalatea — это сервер MCP с открытым исходным кодом, который позволяет Клоду управлять 3D-принтерами Prusa через PrusaLink, давая возможность использовать естественный язык для поиска моделей на Printables.com, их слайсинга и управления печатью.

Как я создал 3D-сайт с прокруткой за 2 часа с помощью Claude Code и Veo
Разработчик создал 3D-сайт с прокруткой за 2 часа, используя Claude Code, генерацию видео Veo и собственный навык «видео в сайт». Исходный код и демо-версия опубликованы.

Палата: ИИ-агент для управления инфраструктурой GPU
Chamber — это ИИ-агент, который управляет GPU-инфраструктурой, выполняя такие задачи, как развёртывание кластеров, диагностика неудачных заданий и управление рабочими нагрузками. Он предоставляет структурированные операции с проверкой и откатом, а не просто сырые команды оболочки.

Microsoft VibeVoice: ASR модели на 60 минут и TTS модели на 90 минут с открытым исходным кодом
VibeVoice — это семейство голосовых AI-моделей с открытым исходным кодом от Microsoft, включающее ASR (однопроходная обработка до 60 минут, диаризация дикторов, более 50 языков) и TTS (мультиспикер до 90 минут, потоковый режим в реальном времени). Использует непрерывные токенизаторы речи с частотой 7,5 Гц и диффузию следующего токена.