MTP + Memória Unificada Aumenta Inferência do llama.cpp em 30% na RTX 5090

Combinar GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 com a especulação Multi-Token Prediction (MTP) no llama.cpp resulta em uma melhoria de ~30% na taxa de transferência — 64 tok/s vs 49 tok/s em um modelo Qwen3.6-27B Q8_0. O benchmark foi executado em uma RTX 5090 com 128 GB DDR5 5600 CL36 e um Ryzen 9 9950X3D.

Comando e Configuração

CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \
    -m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \
    --threads 16 \
    -c 262144 -fa on -np 1 \
    --spec-type mtp --spec-draft-n-max 3 \
    --webui-mcp-proxy \
    --chat-template-kwargs '{"preserve_thinking": true}' \
    --host 0.0.0.0 \
    --port 8090 \
    --jinja

Flags principais:

GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 — permite que a GPU acesse diretamente a memória do host, ignorando o malloc CUDA para contextos grandes.
--spec-type mtp --spec-draft-n-max 3 — ativa a especulação Multi-Token Prediction com profundidade de rascunho 3.
Qwen3.6-27B-Q8_0.gguf — um modelo Qwen3.6 de 27B parâmetros quantizado para Q8_0, preparado com suporte MTP do Unsloth.
-c 262144 — janela de contexto de 256K; -fa on para atenção flash.

Resultados

Sem MTP (apenas memória unificada): 49 tok/s
Com MTP + memória unificada: 64 tok/s
Ganho: 30% mais taxa de transferência

O draft-n-max de 3 significa que o modelo especula até 3 tokens à frente, reduzindo a sobrecarga de decodificação serial. Combinado com a memória unificada, evita transferências PCIe caras entre a RAM da CPU e da GPU.

Para Quem É

Desenvolvedores executando inferência local com contexto grande em GPUs consumidor de ponta (RTX 5090) com bastante RAM do sistema (≥128 GB). Adequado para chatbots, assistentes de código ou qualquer workload de LLM sensível à latência onde a amostragem especulativa é suportada.

📖 Leia a fonte completa: r/LocalLLaMA

MTP + Memória Unificada Aumenta Inferência do llama.cpp em 30% na RTX 5090

Comando e Configuração

Resultados

Para Quem É

👀 See Also

Técnica de Ciência Cognitiva Aumenta a Criatividade de LLM: Comando de Barra /reframe para Claude Code

RCFlow: Orquestrador open-source para Claude Code, Codex e OpenCode com gerenciamento de múltiplas sessões

Implementando um Assistente de Voz Local com Qwen3 em RTX 5060 Ti

Claude IDE Bridge: Ferramenta WebSocket para Acesso em Tempo Real à IDE