MTPLX: в 2,24 раза быстрее генерация токенов на Apple Silicon с использованием нативных MTP-головок

MTPLX — это движок инференса для Apple Silicon, использующий встроенные головы Multi-Token Prediction (MTP) модели в качестве спекулятивных драфтеров. Ключевой результат: Qwen 3.6 27B 4-bit MLX переходит с 28 ток/с на 63 ток/с (в 2,24 раза быстрее) на MacBook Pro M5 Max при температуре 0.6, top_p 0.95, top_k 20 — именно те настройки, которые Qwen рекомендует для программирования.
Как это работает
В отличие от DFlash или DDTree (которые требуют внешнюю модель-драфтер и работают только в жадном режиме), MTPLX использует собственные головы MTP модели. Каждая голова MTP генерирует последовательно, выдавая распределения вероятностей для каждого токена. Это позволяет выполнять точную выборку с отклонением с учетом температуры и остаточной коррекцией. Отсутствие внешнего драфтера означает отсутствие дополнительного расхода памяти.
Для Qwen 3.6 27B (который поставляется с головами MTP глубиной до 5) оптимальная глубина оказалась D3 после тестирования D2–D5. Более глубокие уровни (D4/D5) хорошо принимали ранние токены, но на поздних позициях затраты на верификацию превышали сэкономленные токены.
Статус по сравнению с DFlash / DDTree
DFlash MLX достигает более высокой сырой скорости, но ограничен только жадной выборкой (температура 0), что сильно ограничивает его применение в реальных условиях. DDTree наследует те же ограничения. Оба требуют внешнего драфтера. MTPLX работает с любой моделью, сохранившей свои головы MTP, и поддерживает полный инференс с температурной выборкой.
Установка и использование
MTPLX поставляется как полноценный CLI со следующими командами:
mtplx start wizard— настройка с помощью мастера- Загрузка и проверка модели с четырехуровневым обнаружением совместимости MTP
- Настраиваемая глубина от 2 до 7+
- API-сервер, совместимый с OpenAI/Anthropic, браузерный чат, терминальный чат
- Набор бенчмарков, диагностика здоровья, управление вентилятором с защитой от сбоев и автоматическим восстановлением в режиме ожидания
- Включает 562 теста
Движок построен на форке MLX с патчами, пользовательскими ядрами Metal, скомпилированными графами верификации, инновационной лентой отката GDN и переквантованной головой LM только для драфта.
Для кого это
Разработчики, запускающие локальные LLM на Apple Silicon, которым нужен высокопроизводительный инференс с температурной выборкой для программирования или творческого письма без потери качества вывода.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Сервер Nakkas MCP Создает Анимированные SVG из Описаний ИИ
Nakkas — это MCP-сервер, в котором искусственный интеллект создаёт полные анимированные SVG-конфигурации по описаниям, генерируя чистые анимированные SVG с фигурами, градиентами, анимациями и фильтрами. Он поддерживает параметрические кривые, 15 пресетов фильтров, CSS @keyframes и SMIL-анимации, и работает везде, где рендерится SVG.

Подход к самоулучшению памяти в локальных ИИ-агентах
Разработчик делится своим подходом к постоянной памяти для локальных ИИ-агентов, используя файлы markdown в качестве источника истины, оценку эпизодов на основе правил уверенности и эскалацию доверия на основе паттернов одобрения.

Atelier v0.3 добавляет целенаправленные правки разметки markdown с помощью Claude Code.
Atelier v0.3 — это бесплатное расширение для VS Code, которое позволяет выделять разделы документов в формате Markdown и отправлять их в Claude Code для редактирования. Агент отвечает целенаправленными правками в редакторе, и вы можете отслеживать, на какое именно замечание отвечает каждая правка.

Fino: Открытый MCP-сервер для анализа личных финансов с Claude
Fino — это бесплатный сервер MCP с открытым исходным кодом, который подключает Claude к банковским счетам через Plaid, хранит данные о транзакциях локально в SQLite и предоставляет Claude инструменты для финансового анализа.