MTPLX: в 2,24 раза быстрее генерация токенов на Apple Silicon с использованием нативных MTP-головок

✍️ OpenClawRadar📅 Опубликовано: 5 мая 2026 г.🔗 Source
MTPLX: в 2,24 раза быстрее генерация токенов на Apple Silicon с использованием нативных MTP-головок
Ad

MTPLX — это движок инференса для Apple Silicon, использующий встроенные головы Multi-Token Prediction (MTP) модели в качестве спекулятивных драфтеров. Ключевой результат: Qwen 3.6 27B 4-bit MLX переходит с 28 ток/с на 63 ток/с (в 2,24 раза быстрее) на MacBook Pro M5 Max при температуре 0.6, top_p 0.95, top_k 20 — именно те настройки, которые Qwen рекомендует для программирования.

Как это работает

В отличие от DFlash или DDTree (которые требуют внешнюю модель-драфтер и работают только в жадном режиме), MTPLX использует собственные головы MTP модели. Каждая голова MTP генерирует последовательно, выдавая распределения вероятностей для каждого токена. Это позволяет выполнять точную выборку с отклонением с учетом температуры и остаточной коррекцией. Отсутствие внешнего драфтера означает отсутствие дополнительного расхода памяти.

Для Qwen 3.6 27B (который поставляется с головами MTP глубиной до 5) оптимальная глубина оказалась D3 после тестирования D2–D5. Более глубокие уровни (D4/D5) хорошо принимали ранние токены, но на поздних позициях затраты на верификацию превышали сэкономленные токены.

Статус по сравнению с DFlash / DDTree

DFlash MLX достигает более высокой сырой скорости, но ограничен только жадной выборкой (температура 0), что сильно ограничивает его применение в реальных условиях. DDTree наследует те же ограничения. Оба требуют внешнего драфтера. MTPLX работает с любой моделью, сохранившей свои головы MTP, и поддерживает полный инференс с температурной выборкой.

Ad

Установка и использование

MTPLX поставляется как полноценный CLI со следующими командами:

  • mtplx start wizard — настройка с помощью мастера
  • Загрузка и проверка модели с четырехуровневым обнаружением совместимости MTP
  • Настраиваемая глубина от 2 до 7+
  • API-сервер, совместимый с OpenAI/Anthropic, браузерный чат, терминальный чат
  • Набор бенчмарков, диагностика здоровья, управление вентилятором с защитой от сбоев и автоматическим восстановлением в режиме ожидания
  • Включает 562 теста

Движок построен на форке MLX с патчами, пользовательскими ядрами Metal, скомпилированными графами верификации, инновационной лентой отката GDN и переквантованной головой LM только для драфта.

Для кого это

Разработчики, запускающие локальные LLM на Apple Silicon, которым нужен высокопроизводительный инференс с температурной выборкой для программирования или творческого письма без потери качества вывода.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Сервер Nakkas MCP Создает Анимированные SVG из Описаний ИИ
Инструменты

Сервер Nakkas MCP Создает Анимированные SVG из Описаний ИИ

Nakkas — это MCP-сервер, в котором искусственный интеллект создаёт полные анимированные SVG-конфигурации по описаниям, генерируя чистые анимированные SVG с фигурами, градиентами, анимациями и фильтрами. Он поддерживает параметрические кривые, 15 пресетов фильтров, CSS @keyframes и SMIL-анимации, и работает везде, где рендерится SVG.

OpenClawRadar
Подход к самоулучшению памяти в локальных ИИ-агентах
Инструменты

Подход к самоулучшению памяти в локальных ИИ-агентах

Разработчик делится своим подходом к постоянной памяти для локальных ИИ-агентов, используя файлы markdown в качестве источника истины, оценку эпизодов на основе правил уверенности и эскалацию доверия на основе паттернов одобрения.

OpenClawRadar
Atelier v0.3 добавляет целенаправленные правки разметки markdown с помощью Claude Code.
Инструменты

Atelier v0.3 добавляет целенаправленные правки разметки markdown с помощью Claude Code.

Atelier v0.3 — это бесплатное расширение для VS Code, которое позволяет выделять разделы документов в формате Markdown и отправлять их в Claude Code для редактирования. Агент отвечает целенаправленными правками в редакторе, и вы можете отслеживать, на какое именно замечание отвечает каждая правка.

OpenClawRadar
Fino: Открытый MCP-сервер для анализа личных финансов с Claude
Инструменты

Fino: Открытый MCP-сервер для анализа личных финансов с Claude

Fino — это бесплатный сервер MCP с открытым исходным кодом, который подключает Claude к банковским счетам через Plaid, хранит данные о транзакциях локально в SQLite и предоставляет Claude инструменты для финансового анализа.

OpenClawRadar