Qwen 3.6 27B 2.5x más rápido con decodificación MTP en llama.cpp

Un usuario de Reddit ha compilado llama.cpp con un PR pendiente (#22673) que habilita la Predicción Multi-Token (MTP) para Qwen 3.6 27B. MTP utiliza las capas tensoriales integradas del modelo para decodificación especulativa, reclamando una aceleración de 2.5x — de ~11 tok/s a 28 tok/s en un Mac M2 Max 96GB.

Detalles Clave

Modelo: Qwen 3.6 27B (variante de arquitectura Qwen2.5-3.0)
Hardware probado: Mac M2 Max 96GB
Resultados: 28 tok/s con MTP (vs ~11 tok/s sin él)
Soporte de contexto: Hasta 262K tokens con caché KV turbo4 en Mac de 48GB
Cuantizaciones: GGUF preconvertidos subidos por el usuario en froggeric/Qwen3.6-27B-MTP-GGUF

Instrucciones de Compilación

git clone --depth 1 https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin pull/22673/head:mtp-pr && git checkout mtp-pr
cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --target llama-cli llama-server

Comando del Servidor

llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
  --mmproj mmproj-Qwen3.6-27B-f16.gguf \
  --spec-type mtp --spec-draft-n-max 5 \
  --cache-type-k turbo4 --cache-type-v turbo4 \
  -c 262144 --temp 0.7 --top-k 20 -ngl 99 --port 8081

Tres optimizaciones combinadas:

--spec-type mtp --spec-draft-n-max 5: habilita la decodificación especulativa MTP (2.5x más rápida)
--cache-type-k turbo4 --cache-type-v turbo4: caché KV de 4.25 bits (un cuarto de memoria frente a 16 bits)
-c 262144: ventana de contexto de 262K (cabe en 48GB con turbo4)

Recomendaciones de Hardware

Se proporcionan tablas de cuantización y caché KV para Apple Silicon y NVIDIA GPU en la fuente para configuraciones con memoria limitada (por ejemplo, IQ2_M en Apple Silicon de 16GB con contexto de 48K). El soporte de visión (mmproj) está disponible en configuraciones de 32GB o más.

Correcciones Adicionales

El usuario también publicó 7 correcciones a la plantilla de chat jinja de Qwen que estaban rotas debido al formato específico de vLLM. Ahora son compatibles con llama.cpp y otras herramientas.

Nota: Los archivos GGUF existentes en Hugging Face no incluyen soporte MTP — requieren reconversión con el PR aplicado. El usuario advierte que las subidas iniciales están incompletas; verifique el estado del repositorio en Hugging Face.

📖 Lea la fuente completa: r/LocalLLaMA