Qwen 3.6 27B 2,5x mais rápido: como usar MTP no llama.cpp

Um usuário do Reddit compilou o llama.cpp com um PR pendente (#22673) que habilita a Predição Múltipla de Tokens (MTP) para o Qwen 3.6 27B. O MTP usa as camadas tensoriais internas do modelo para decodificação especulativa, alegando um speedup de 2,5x — de ~11 tok/s para 28 tok/s em um Mac M2 Max 96GB.

Detalhes Principais

Modelo: Qwen 3.6 27B (variante da arquitetura Qwen2.5-3.0)
Hardware testado: Mac M2 Max 96GB
Resultados: 28 tok/s com MTP (vs ~11 tok/s sem)
Suporte a contexto: Até 262K tokens com cache KV turbo4 em Mac de 48GB
Quantizações: GGUF quants pré-convertidos enviados pelo usuário em froggeric/Qwen3.6-27B-MTP-GGUF

Instruções de Compilação

git clone --depth 1 https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin pull/22673/head:mtp-pr && git checkout mtp-pr
cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --target llama-cli llama-server

Comando do Servidor

llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
  --mmproj mmproj-Qwen3.6-27B-f16.gguf \
  --spec-type mtp --spec-draft-n-max 5 \
  --cache-type-k turbo4 --cache-type-v turbo4 \
  -c 262144 --temp 0.7 --top-k 20 -ngl 99 --port 8081

Três otimizações combinadas:

--spec-type mtp --spec-draft-n-max 5: ativa decodificação especulativa MTP (2,5x mais rápido)
--cache-type-k turbo4 --cache-type-v turbo4: cache KV de 4,25 bits (memória reduzida a 1/4 em comparação com 16 bits)
-c 262144: janela de contexto de 262K (cabe em 48GB com turbo4)

Recomendações de Hardware

Tabelas de quantização e cache KV para Apple Silicon e GPU NVIDIA são fornecidas na fonte para configurações com pouca RAM (ex.: IQ2_M em Apple Silicon de 16GB com contexto de 48K). Suporte a visão (mmproj) está disponível em configurações de 32GB+.

Correções Adicionais

O usuário também publicou 7 correções para o template de chat jinja do Qwen que estavam quebrados devido à formatação específica do vLLM. Agora são compatíveis com llama.cpp e outras ferramentas.

Nota: Os arquivos GGUF existentes no Hugging Face não incluem suporte a MTP — eles exigem reconversão com o PR aplicado. O usuário alerta que os uploads iniciais estão incompletos; verifique o status do repositório no Hugging Face.

📖 Leia a fonte original: r/LocalLLaMA