Qwen 3.6 27B достигает 2.5-кратного ускорения при спекулятивном декодировании MTP на llama.cpp

Пользователь Reddit скомпилировал llama.cpp с ожидающим PR (#22673), который включает Multi-Token Prediction (MTP) для Qwen 3.6 27B. MTP использует встроенные тензорные слои модели для спекулятивного декодирования, обеспечивая 2.5-кратное ускорение — с ~11 ток/с до 28 ток/с на Mac M2 Max 96GB.
Ключевые детали
- Модель: Qwen 3.6 27B (архитектура Qwen2.5-3.0)
- Тестируемое оборудование: Mac M2 Max 96GB
- Результаты: 28 ток/с с MTP (против ~11 ток/с без)
- Поддержка контекста: До 262K токенов с KV-кэшем turbo4 на 48GB Mac
- Квантизации: Предварительно конвертированные GGUF квантизации, загруженные пользователем на
froggeric/Qwen3.6-27B-MTP-GGUF
Инструкции по компиляции
git clone --depth 1 https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin pull/22673/head:mtp-pr && git checkout mtp-pr
cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --target llama-cli llama-serverКоманда сервера
llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
--mmproj mmproj-Qwen3.6-27B-f16.gguf \
--spec-type mtp --spec-draft-n-max 5 \
--cache-type-k turbo4 --cache-type-v turbo4 \
-c 262144 --temp 0.7 --top-k 20 -ngl 99 --port 8081Три оптимизации вместе:
--spec-type mtp --spec-draft-n-max 5: включает спекулятивное декодирование MTP (в 2.5 раза быстрее)--cache-type-k turbo4 --cache-type-v turbo4: KV-кэш 4.25 бит (вчетверо меньше памяти по сравнению с 16 битами)-c 262144: окно контекста 262K (помещается в 48GB с turbo4)
Рекомендации по оборудованию
Для Apple Silicon и NVIDIA GPU в источнике приведены таблицы квантизаций и KV-кэша для конфигураций с ограниченной памятью (например, IQ2_M на 16GB Apple Silicon с контекстом 48K). Поддержка зрения (mmproj) доступна на конфигурациях от 32GB.
Дополнительные исправления
Пользователь также опубликовал 7 исправлений для шаблонов чата Qwen jinja, которые были сломаны из-за форматирования vLLM. Теперь они совместимы с llama.cpp и другими инструментами.
Примечание: Существующие GGUF файлы на Hugging Face не включают поддержку MTP — их нужно переконвертировать с применённым PR. Пользователь предупреждает, что первоначальные загрузки неполны; проверьте статус репозитория на Hugging Face.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Контекст Lean: Плагин Claude Code преобразует многословную документацию в файлы, оптимизированные для агентов.
Бесплатный плагин с открытым исходным кодом для Claude Code под названием Lean Context анализирует документацию проекта и удаляет контент, который AI-агенты могут обнаружить через поиск (grepping), оставляя только важные неочевидные команды, подводные камни и особенности окружения. В тесте с .NET e-commerce проектом он сократил 8 документов общим объёмом в 1 263 строки до всего 23 строк.

Обзор производительности Omnicoder-9B: Скорость против проблем с вызовом инструментов
Omnicoder-9B, модель, ориентированная на программирование, дообученная на Qwen3.5 9B с выводами от Opus 4.6, GPT 5.4, GPT 5.3 Codex и Gemini 3.1 Pro, демонстрирует высокую производительность на оборудовании среднего уровня, но имеет проблемы с вызовом инструментов в IDE.

Разработчик создает ИИ-фреймворк с 17 биологическими принципами, используя Claude Code.
Разработчик создал AI-фреймворк под названием Cognitive Sparks, реализовав 17 биологических принципов, таких как пороговое срабатывание и геббовская пластичность, на основе книги 1999 года 'Sparks of Genius'. Весь проект — 22 документа по дизайну и 3300 строк кода — был создан за один день с помощью Claude Code, без кода, написанного человеком.

Обзор производительности модели OpenClaw: Codex 5.3 лидирует, модели GLM разочаровывают.
Разработчик протестировал несколько моделей ИИ с помощью OpenClaw, обнаружив, что Codex 5.3 показывает лучшие результаты с оценкой 9/10, в то время как GLM 4.7 и GLM 5 получили 5/10 из-за высокого потребления токенов, медленных ответов и нестабильных результатов.