Qwen 3.6 27B alcança velocidade 2,5x com decodificação especulativa MTP no llama.cpp

✍️ OpenClawRadar📅 Publicado: May 6, 2026🔗 Source
Qwen 3.6 27B alcança velocidade 2,5x com decodificação especulativa MTP no llama.cpp
Ad

Um usuário do Reddit compilou o llama.cpp com um PR pendente (#22673) que habilita a Predição Múltipla de Tokens (MTP) para o Qwen 3.6 27B. O MTP usa as camadas tensoriais internas do modelo para decodificação especulativa, alegando um speedup de 2,5x — de ~11 tok/s para 28 tok/s em um Mac M2 Max 96GB.

Detalhes Principais

  • Modelo: Qwen 3.6 27B (variante da arquitetura Qwen2.5-3.0)
  • Hardware testado: Mac M2 Max 96GB
  • Resultados: 28 tok/s com MTP (vs ~11 tok/s sem)
  • Suporte a contexto: Até 262K tokens com cache KV turbo4 em Mac de 48GB
  • Quantizações: GGUF quants pré-convertidos enviados pelo usuário em froggeric/Qwen3.6-27B-MTP-GGUF

Instruções de Compilação

git clone --depth 1 https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin pull/22673/head:mtp-pr && git checkout mtp-pr
cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --target llama-cli llama-server
Ad

Comando do Servidor

llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
  --mmproj mmproj-Qwen3.6-27B-f16.gguf \
  --spec-type mtp --spec-draft-n-max 5 \
  --cache-type-k turbo4 --cache-type-v turbo4 \
  -c 262144 --temp 0.7 --top-k 20 -ngl 99 --port 8081

Três otimizações combinadas:

  • --spec-type mtp --spec-draft-n-max 5: ativa decodificação especulativa MTP (2,5x mais rápido)
  • --cache-type-k turbo4 --cache-type-v turbo4: cache KV de 4,25 bits (memória reduzida a 1/4 em comparação com 16 bits)
  • -c 262144: janela de contexto de 262K (cabe em 48GB com turbo4)

Recomendações de Hardware

Tabelas de quantização e cache KV para Apple Silicon e GPU NVIDIA são fornecidas na fonte para configurações com pouca RAM (ex.: IQ2_M em Apple Silicon de 16GB com contexto de 48K). Suporte a visão (mmproj) está disponível em configurações de 32GB+.

Correções Adicionais

O usuário também publicou 7 correções para o template de chat jinja do Qwen que estavam quebrados devido à formatação específica do vLLM. Agora são compatíveis com llama.cpp e outras ferramentas.

Nota: Os arquivos GGUF existentes no Hugging Face não incluem suporte a MTP — eles exigem reconversão com o PR aplicado. O usuário alerta que os uploads iniciais estão incompletos; verifique o status do repositório no Hugging Face.

📖 Leia a fonte original: r/LocalLLaMA

Ad

👀 See Also

Noren AI: Ferramenta de Extração de Voz Identifica Padrões de Escrita a partir de Amostras
Tools

Noren AI: Ferramenta de Extração de Voz Identifica Padrões de Escrita a partir de Amostras

A Noren AI analisa de 5 a 10 amostras de escrita para gerar automaticamente um guia de voz baseado em padrões reais, correspondendo a 90% dos padrões identificados manualmente e descobrindo outros adicionais.

OpenClawRadar
Extensão do Chrome Claude para PDF Exporta Conversas Longas com Formatação Preservada
Tools

Extensão do Chrome Claude para PDF Exporta Conversas Longas com Formatação Preservada

Um desenvolvedor lançou uma extensão gratuita para Chrome chamada Claude to PDF que captura todo o histórico de conversas dos chats da Claude AI e preserva blocos de código, fórmulas matemáticas em LaTeX e formatação de tabelas ao exportar para PDF.

OpenClawRadar
PocketBot Beta: Agente de IA para iOS com Privacidade em Primeiro Lugar e Motor Híbrido Local/Nuvem
Tools

PocketBot Beta: Agente de IA para iOS com Privacidade em Primeiro Lugar e Motor Híbrido Local/Nuvem

PocketBot é um agente de IA para iOS que opera em segundo plano, integra-se aos App Intents e utiliza um motor híbrido: execução local para gatilhos do sistema e sanitização de PII, com processamento em nuvem para tarefas complexas como resumo de e-mails ou reserva de voos.

OpenClawRadar
O plugin cc-soul adiciona memória persistente e personas adaptativas ao OpenClaw.
Tools

O plugin cc-soul adiciona memória persistente e personas adaptativas ao OpenClaw.

O plugin cc-soul para OpenClaw oferece armazenamento de memória permanente entre sessões, 10 personas de troca automática e aprendizado com correções. A instalação requer apenas um comando, sem necessidade de configuração.

OpenClawRadar