Qwen 3.6 27B достигает 2.5-кратного ускорения при спекулятивном декодировании MTP на llama.cpp

✍️ OpenClawRadar📅 Опубликовано: 6 мая 2026 г.🔗 Source

Пользователь Reddit скомпилировал llama.cpp с ожидающим PR (#22673), который включает Multi-Token Prediction (MTP) для Qwen 3.6 27B. MTP использует встроенные тензорные слои модели для спекулятивного декодирования, обеспечивая 2.5-кратное ускорение — с ~11 ток/с до 28 ток/с на Mac M2 Max 96GB.

Ключевые детали

Модель: Qwen 3.6 27B (архитектура Qwen2.5-3.0)
Тестируемое оборудование: Mac M2 Max 96GB
Результаты: 28 ток/с с MTP (против ~11 ток/с без)
Поддержка контекста: До 262K токенов с KV-кэшем turbo4 на 48GB Mac
Квантизации: Предварительно конвертированные GGUF квантизации, загруженные пользователем на froggeric/Qwen3.6-27B-MTP-GGUF

Инструкции по компиляции

git clone --depth 1 https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin pull/22673/head:mtp-pr && git checkout mtp-pr
cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --target llama-cli llama-server

Команда сервера

llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
  --mmproj mmproj-Qwen3.6-27B-f16.gguf \
  --spec-type mtp --spec-draft-n-max 5 \
  --cache-type-k turbo4 --cache-type-v turbo4 \
  -c 262144 --temp 0.7 --top-k 20 -ngl 99 --port 8081

Три оптимизации вместе:

--spec-type mtp --spec-draft-n-max 5: включает спекулятивное декодирование MTP (в 2.5 раза быстрее)
--cache-type-k turbo4 --cache-type-v turbo4: KV-кэш 4.25 бит (вчетверо меньше памяти по сравнению с 16 битами)
-c 262144: окно контекста 262K (помещается в 48GB с turbo4)

Дополнительные исправления

Пользователь также опубликовал 7 исправлений для шаблонов чата Qwen jinja, которые были сломаны из-за форматирования vLLM. Теперь они совместимы с llama.cpp и другими инструментами.

Примечание: Существующие GGUF файлы на Hugging Face не включают поддержку MTP — их нужно переконвертировать с применённым PR. Пользователь предупреждает, что первоначальные загрузки неполны; проверьте статус репозитория на Hugging Face.

📖 Читать полный источник: r/LocalLLaMA

👀 Смотрите также

Инструменты

Контекст Lean: Плагин Claude Code преобразует многословную документацию в файлы, оптимизированные для агентов.

Бесплатный плагин с открытым исходным кодом для Claude Code под названием Lean Context анализирует документацию проекта и удаляет контент, который AI-агенты могут обнаружить через поиск (grepping), оставляя только важные неочевидные команды, подводные камни и особенности окружения. В тесте с .NET e-commerce проектом он сократил 8 документов общим объёмом в 1 263 строки до всего 23 строк.

1 мар. 2026 г., 13:45 UTC

OpenClawRadar

Инструменты

Обзор производительности Omnicoder-9B: Скорость против проблем с вызовом инструментов

Omnicoder-9B, модель, ориентированная на программирование, дообученная на Qwen3.5 9B с выводами от Opus 4.6, GPT 5.4, GPT 5.3 Codex и Gemini 3.1 Pro, демонстрирует высокую производительность на оборудовании среднего уровня, но имеет проблемы с вызовом инструментов в IDE.

18 апр. 2026 г., 10:45 UTC

OpenClawRadar

Инструменты

Разработчик создает ИИ-фреймворк с 17 биологическими принципами, используя Claude Code.

Разработчик создал AI-фреймворк под названием Cognitive Sparks, реализовав 17 биологических принципов, таких как пороговое срабатывание и геббовская пластичность, на основе книги 1999 года 'Sparks of Genius'. Весь проект — 22 документа по дизайну и 3300 строк кода — был создан за один день с помощью Claude Code, без кода, написанного человеком.

14 апр. 2026 г., 21:45 UTC

OpenClawRadar

Инструменты

Обзор производительности модели OpenClaw: Codex 5.3 лидирует, модели GLM разочаровывают.

Разработчик протестировал несколько моделей ИИ с помощью OpenClaw, обнаружив, что Codex 5.3 показывает лучшие результаты с оценкой 9/10, в то время как GLM 4.7 и GLM 5 получили 5/10 из-за высокого потребления токенов, медленных ответов и нестабильных результатов.

17 апр. 2026 г., 14:45 UTC

OpenClawRadar

Ключевые детали

Инструкции по компиляции

Команда сервера

Рекомендации по оборудованию

Дополнительные исправления

👀 Смотрите также

Контекст Lean: Плагин Claude Code преобразует многословную документацию в файлы, оптимизированные для агентов.

Обзор производительности Omnicoder-9B: Скорость против проблем с вызовом инструментов

Разработчик создает ИИ-фреймворк с 17 биологическими принципами, используя Claude Code.

Обзор производительности модели OpenClaw: Codex 5.3 лидирует, модели GLM разочаровывают.