Форк vllm-mlx добавляет вызов инструментов и кэширование промптов для локальных агентов ИИ в программировании.

Разработчик опубликовал модифицированную версию vllm-mlx, которая исправляет несколько проблем для запуска AI-агентов программирования, таких как OpenClaw, локально на Mac. Форк добавляет рабочий вызов инструментов и кэширование промптов в совместимый с OpenAI сервер для Apple Silicon.
Ключевые исправления и функции
Разработчик сделал 37 коммитов поверх основной версии vllm-mlx для решения конкретных проблем:
- Вызов инструментов: Добавлен флаг
--tool-call-parser hermes— вызовы инструментов Qwen3-Coder-Next работают из коробки - MiniMax-M2.5: Добавлен потоковый и непотоковый парсинг вызовов инструментов с точностью 4/4 в тестах на вызов функций (погода, поиск, выполнение кода, мультиинструменты)
- Кэш промптов: Добавлено постоянное KV-кэширование между запросами в SimpleEngine — одинаковый системный промпт и история диалога предзаполняют только новые токены
- Разделение рассуждений: Построен эвристический парсер для выводов MiniMax, где рассуждения были встроены без тегов — снижена частота утечек с 60% до 0%
Улучшения производительности
При контексте в 33K токенов время до первого токена (TTFT) улучшилось с 28 секунд до 0,3 секунды при попадании в кэш. Тесты на Mac Studio M3 Ultra 256GB:
- Qwen3-Coder-Next 4bit: 42 ГБ ОЗУ, 70 токенов/с декодирование, 1270 токенов/с предзаполнение
- Qwen3-Coder-Next 6bit: 60 ГБ ОЗУ, 65 токенов/с декодирование, 1090-1440 токенов/с предзаполнение
- Qwen3-Coder-Next 8bit: 75 ГБ ОЗУ, ~45 токенов/с декодирование, ~900 токенов/с предзаполнение
- MiniMax-M2.5 4bit: 120 ГБ ОЗУ, 33-38 токенов/с декодирование, 430-500 токенов/с предзаполнение
Разработчик рекомендует Qwen3-Coder-Next 6bit как оптимальный вариант для интерактивного программирования, отмечая, что качество заметно лучше, чем у 4bit (где иногда возникал искажённый вывод).
Инструкции по установке
pip install git+https://github.com/raullenchai/vllm-mlx.git
python -c "from mlx_lm import load; load('lmstudio-community/Qwen3-Coder-Next-MLX-6bit')"
python -m vllm_mlx.server \
--model lmstudio-community/Qwen3-Coder-Next-MLX-6bit \
--tool-call-parser hermes \
--prefill-step-size 8192 \
--kv-bits 8 \
--port 8000
Затем направьте OpenClaw или любой клиент OpenAI SDK на http://localhost:8000/v1.
Требования к оборудованию
- Qwen3-Coder-Next 4bit: 42 ГБ — помещается на M2 Pro 64 ГБ или лучше
- Qwen3-Coder-Next 6bit: 60 ГБ — требуется M2/M3/M4 Max 96 ГБ+ или Ultra
- MiniMax-M2.5: 120 ГБ — только Ultra 192 ГБ+
Что не сработало
- Спекулятивное декодирование с Qwen3-0.6B в качестве черновой модели — в mlx-lm есть известная ошибка с Qwen3 (пропуск токенов, issue #846)
- DeepSeek-R1-Distill-70B для OpenClaw — отлично справляется с рассуждениями, но вызов инструментов ненадёжен
Репозиторий содержит 1500+ тестов и лицензирован под Apache 2.0.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Клод-кит: Система управления конфигурацией для проектов кода Клода
Claude-kit — это инструмент с открытым исходным кодом для управления конфигурациями каталога .claude/ в нескольких проектах. Он автоматически определяет технологические стеки, генерирует конфигурации, проверяет безопасность и качество, а также синхронизирует изменения, не перезаписывая пользовательские настройки.

Два паттерна для предотвращения деградации памяти ИИ-агентов: AutoDream и Скептический поиск.
OpenClaw представляет две модели с лицензией MIT для решения проблемы деградации файловой памяти ИИ: AutoDream для ночной консолидации памяти и Skeptical Retrieval для оценки памяти с учетом затухания. Обе работают вместе в самосовершенствующемся цикле, чтобы контекст агента оставался актуальным.

Измерение затрат токенов на нецелевые действия в Claude Code: Метрика «незаявленного намерения»
Разработчик создал метрику для измерения вычислительных затрат на непредусмотренные пути выполнения в сессиях Claude Code, обнаружив, что 22,8% токенов уходило на постороннюю работу.

Разработчик создает генератор шаблонов .NET SaaS с помощью Claude Code и делится инсайтами о рабочем процессе
Разработчик открыл исходный код NETrock, стартового шаблона SaaS на .NET 10 с аутентификацией, ORM и фоновыми задачами, а затем создал для него клиентский генератор с помощью Claude Code. Генератор позволяет пользователям выбирать функции и загружать рабочий .zip-проект, который остается в их браузере.