Qwen 3.6 27B alcança velocidade 2,5x com decodificação especulativa MTP no llama.cpp

Um usuário do Reddit compilou o llama.cpp com um PR pendente (#22673) que habilita a Predição Múltipla de Tokens (MTP) para o Qwen 3.6 27B. O MTP usa as camadas tensoriais internas do modelo para decodificação especulativa, alegando um speedup de 2,5x — de ~11 tok/s para 28 tok/s em um Mac M2 Max 96GB.
Detalhes Principais
- Modelo: Qwen 3.6 27B (variante da arquitetura Qwen2.5-3.0)
- Hardware testado: Mac M2 Max 96GB
- Resultados: 28 tok/s com MTP (vs ~11 tok/s sem)
- Suporte a contexto: Até 262K tokens com cache KV turbo4 em Mac de 48GB
- Quantizações: GGUF quants pré-convertidos enviados pelo usuário em
froggeric/Qwen3.6-27B-MTP-GGUF
Instruções de Compilação
git clone --depth 1 https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin pull/22673/head:mtp-pr && git checkout mtp-pr
cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --target llama-cli llama-serverComando do Servidor
llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
--mmproj mmproj-Qwen3.6-27B-f16.gguf \
--spec-type mtp --spec-draft-n-max 5 \
--cache-type-k turbo4 --cache-type-v turbo4 \
-c 262144 --temp 0.7 --top-k 20 -ngl 99 --port 8081Três otimizações combinadas:
--spec-type mtp --spec-draft-n-max 5: ativa decodificação especulativa MTP (2,5x mais rápido)--cache-type-k turbo4 --cache-type-v turbo4: cache KV de 4,25 bits (memória reduzida a 1/4 em comparação com 16 bits)-c 262144: janela de contexto de 262K (cabe em 48GB com turbo4)
Recomendações de Hardware
Tabelas de quantização e cache KV para Apple Silicon e GPU NVIDIA são fornecidas na fonte para configurações com pouca RAM (ex.: IQ2_M em Apple Silicon de 16GB com contexto de 48K). Suporte a visão (mmproj) está disponível em configurações de 32GB+.
Correções Adicionais
O usuário também publicou 7 correções para o template de chat jinja do Qwen que estavam quebrados devido à formatação específica do vLLM. Agora são compatíveis com llama.cpp e outras ferramentas.
Nota: Os arquivos GGUF existentes no Hugging Face não incluem suporte a MTP — eles exigem reconversão com o PR aplicado. O usuário alerta que os uploads iniciais estão incompletos; verifique o status do repositório no Hugging Face.
📖 Leia a fonte original: r/LocalLLaMA
👀 See Also

Noren AI: Ferramenta de Extração de Voz Identifica Padrões de Escrita a partir de Amostras
A Noren AI analisa de 5 a 10 amostras de escrita para gerar automaticamente um guia de voz baseado em padrões reais, correspondendo a 90% dos padrões identificados manualmente e descobrindo outros adicionais.

Extensão do Chrome Claude para PDF Exporta Conversas Longas com Formatação Preservada
Um desenvolvedor lançou uma extensão gratuita para Chrome chamada Claude to PDF que captura todo o histórico de conversas dos chats da Claude AI e preserva blocos de código, fórmulas matemáticas em LaTeX e formatação de tabelas ao exportar para PDF.

PocketBot Beta: Agente de IA para iOS com Privacidade em Primeiro Lugar e Motor Híbrido Local/Nuvem
PocketBot é um agente de IA para iOS que opera em segundo plano, integra-se aos App Intents e utiliza um motor híbrido: execução local para gatilhos do sistema e sanitização de PII, com processamento em nuvem para tarefas complexas como resumo de e-mails ou reserva de voos.

O plugin cc-soul adiciona memória persistente e personas adaptativas ao OpenClaw.
O plugin cc-soul para OpenClaw oferece armazenamento de memória permanente entre sessões, 10 personas de troca automática e aprendizado com correções. A instalação requer apenas um comando, sem necessidade de configuração.