Форк vllm-mlx добавляет вызов инструментов и кэширование промптов для локальных агентов ИИ в программировании.

✍️ OpenClawRadar📅 Опубликовано: 26 февраля 2026 г.🔗 Source
Форк vllm-mlx добавляет вызов инструментов и кэширование промптов для локальных агентов ИИ в программировании.
Ad

Разработчик опубликовал модифицированную версию vllm-mlx, которая исправляет несколько проблем для запуска AI-агентов программирования, таких как OpenClaw, локально на Mac. Форк добавляет рабочий вызов инструментов и кэширование промптов в совместимый с OpenAI сервер для Apple Silicon.

Ключевые исправления и функции

Разработчик сделал 37 коммитов поверх основной версии vllm-mlx для решения конкретных проблем:

  • Вызов инструментов: Добавлен флаг --tool-call-parser hermes — вызовы инструментов Qwen3-Coder-Next работают из коробки
  • MiniMax-M2.5: Добавлен потоковый и непотоковый парсинг вызовов инструментов с точностью 4/4 в тестах на вызов функций (погода, поиск, выполнение кода, мультиинструменты)
  • Кэш промптов: Добавлено постоянное KV-кэширование между запросами в SimpleEngine — одинаковый системный промпт и история диалога предзаполняют только новые токены
  • Разделение рассуждений: Построен эвристический парсер для выводов MiniMax, где рассуждения были встроены без тегов — снижена частота утечек с 60% до 0%

Улучшения производительности

При контексте в 33K токенов время до первого токена (TTFT) улучшилось с 28 секунд до 0,3 секунды при попадании в кэш. Тесты на Mac Studio M3 Ultra 256GB:

  • Qwen3-Coder-Next 4bit: 42 ГБ ОЗУ, 70 токенов/с декодирование, 1270 токенов/с предзаполнение
  • Qwen3-Coder-Next 6bit: 60 ГБ ОЗУ, 65 токенов/с декодирование, 1090-1440 токенов/с предзаполнение
  • Qwen3-Coder-Next 8bit: 75 ГБ ОЗУ, ~45 токенов/с декодирование, ~900 токенов/с предзаполнение
  • MiniMax-M2.5 4bit: 120 ГБ ОЗУ, 33-38 токенов/с декодирование, 430-500 токенов/с предзаполнение

Разработчик рекомендует Qwen3-Coder-Next 6bit как оптимальный вариант для интерактивного программирования, отмечая, что качество заметно лучше, чем у 4bit (где иногда возникал искажённый вывод).

Ad

Инструкции по установке

pip install git+https://github.com/raullenchai/vllm-mlx.git
python -c "from mlx_lm import load; load('lmstudio-community/Qwen3-Coder-Next-MLX-6bit')"
python -m vllm_mlx.server \
  --model lmstudio-community/Qwen3-Coder-Next-MLX-6bit \
  --tool-call-parser hermes \
  --prefill-step-size 8192 \
  --kv-bits 8 \
  --port 8000

Затем направьте OpenClaw или любой клиент OpenAI SDK на http://localhost:8000/v1.

Требования к оборудованию

  • Qwen3-Coder-Next 4bit: 42 ГБ — помещается на M2 Pro 64 ГБ или лучше
  • Qwen3-Coder-Next 6bit: 60 ГБ — требуется M2/M3/M4 Max 96 ГБ+ или Ultra
  • MiniMax-M2.5: 120 ГБ — только Ultra 192 ГБ+

Что не сработало

  • Спекулятивное декодирование с Qwen3-0.6B в качестве черновой модели — в mlx-lm есть известная ошибка с Qwen3 (пропуск токенов, issue #846)
  • DeepSeek-R1-Distill-70B для OpenClaw — отлично справляется с рассуждениями, но вызов инструментов ненадёжен

Репозиторий содержит 1500+ тестов и лицензирован под Apache 2.0.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Сервер OpenGalatea MCP подключает Claude к 3D-принтерам Prusa
Инструменты

Сервер OpenGalatea MCP подключает Claude к 3D-принтерам Prusa

OpenGalatea — это сервер MCP с открытым исходным кодом, который позволяет Клоду управлять 3D-принтерами Prusa через PrusaLink, давая возможность использовать естественный язык для поиска моделей на Printables.com, их слайсинга и управления печатью.

OpenClawRadar
Как я создал 3D-сайт с прокруткой за 2 часа с помощью Claude Code и Veo
Инструменты

Как я создал 3D-сайт с прокруткой за 2 часа с помощью Claude Code и Veo

Разработчик создал 3D-сайт с прокруткой за 2 часа, используя Claude Code, генерацию видео Veo и собственный навык «видео в сайт». Исходный код и демо-версия опубликованы.

OpenClawRadar
Палата: ИИ-агент для управления инфраструктурой GPU
Инструменты

Палата: ИИ-агент для управления инфраструктурой GPU

Chamber — это ИИ-агент, который управляет GPU-инфраструктурой, выполняя такие задачи, как развёртывание кластеров, диагностика неудачных заданий и управление рабочими нагрузками. Он предоставляет структурированные операции с проверкой и откатом, а не просто сырые команды оболочки.

OpenClawRadar
Microsoft VibeVoice: ASR модели на 60 минут и TTS модели на 90 минут с открытым исходным кодом
Инструменты

Microsoft VibeVoice: ASR модели на 60 минут и TTS модели на 90 минут с открытым исходным кодом

VibeVoice — это семейство голосовых AI-моделей с открытым исходным кодом от Microsoft, включающее ASR (однопроходная обработка до 60 минут, диаризация дикторов, более 50 языков) и TTS (мультиспикер до 90 минут, потоковый режим в реальном времени). Использует непрерывные токенизаторы речи с частотой 7,5 Гц и диффузию следующего токена.

OpenClawRadar