MTP + Memória Unificada Aumenta Inferência do llama.cpp em 30% na RTX 5090

✍️ OpenClawRadar📅 Publicado: May 12, 2026🔗 Source
Ad

Combinar GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 com a especulação Multi-Token Prediction (MTP) no llama.cpp resulta em uma melhoria de ~30% na taxa de transferência — 64 tok/s vs 49 tok/s em um modelo Qwen3.6-27B Q8_0. O benchmark foi executado em uma RTX 5090 com 128 GB DDR5 5600 CL36 e um Ryzen 9 9950X3D.

Comando e Configuração

CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \
    -m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \
    --threads 16 \
    -c 262144 -fa on -np 1 \
    --spec-type mtp --spec-draft-n-max 3 \
    --webui-mcp-proxy \
    --chat-template-kwargs '{"preserve_thinking": true}' \
    --host 0.0.0.0 \
    --port 8090 \
    --jinja

Flags principais:

  • GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 — permite que a GPU acesse diretamente a memória do host, ignorando o malloc CUDA para contextos grandes.
  • --spec-type mtp --spec-draft-n-max 3 — ativa a especulação Multi-Token Prediction com profundidade de rascunho 3.
  • Qwen3.6-27B-Q8_0.gguf — um modelo Qwen3.6 de 27B parâmetros quantizado para Q8_0, preparado com suporte MTP do Unsloth.
  • -c 262144 — janela de contexto de 256K; -fa on para atenção flash.
Ad

Resultados

  • Sem MTP (apenas memória unificada): 49 tok/s
  • Com MTP + memória unificada: 64 tok/s
  • Ganho: 30% mais taxa de transferência

O draft-n-max de 3 significa que o modelo especula até 3 tokens à frente, reduzindo a sobrecarga de decodificação serial. Combinado com a memória unificada, evita transferências PCIe caras entre a RAM da CPU e da GPU.

Para Quem É

Desenvolvedores executando inferência local com contexto grande em GPUs consumidor de ponta (RTX 5090) com bastante RAM do sistema (≥128 GB). Adequado para chatbots, assistentes de código ou qualquer workload de LLM sensível à latência onde a amostragem especulativa é suportada.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Extensão Local AI do VS Code bloqueia geração de código inseguro durante salvamentos
Tools

Extensão Local AI do VS Code bloqueia geração de código inseguro durante salvamentos

Um desenvolvedor criou uma extensão do VS Code que executa o modelo llama3.1:8b-instruct-q4 localmente para interceptar salvamentos, mapear fluxos de execução de origem para destino e bloquear código inseguro gerado por IA, como vulnerabilidades de injeção de logs CWE-117.

OpenClawRadar
ddash: Ferramenta de Diagrama Mermaid com Armazenamento Baseado em URL e Integração de Código Claude
Tools

ddash: Ferramenta de Diagrama Mermaid com Armazenamento Baseado em URL e Integração de Código Claude

ddash é uma ferramenta gratuita de diagramas Mermaid onde todo o diagrama é comprimido no hash da URL, não exigindo backend, contas ou armazenamento. Inclui uma habilidade Claude Code que permite gerar e abrir diagramas diretamente durante conversas com comandos como /diagram the auth flow.

OpenClawRadar
Gerenciador de Projetos Local no Estilo Trello para Agentes OpenClaw
Tools

Gerenciador de Projetos Local no Estilo Trello para Agentes OpenClaw

Um desenvolvedor construiu uma ferramenta local de gerenciamento de projetos semelhante ao Trello que roda na mesma máquina que seu agente OpenClaw, armazenando cartões como arquivos markdown com frontmatter YAML. O sistema usa Node.js/Express para a API, React para a interface e permite que o agente de IA leia/escreva arquivos diretamente no sistema de arquivos.

OpenClawRadar
Como a Mendral Reduziu Custos de LLM ao Atualizar para Opus: Padrão Triager, Acesso SQL e Arquitetura de Sub-Agente
Tools

Como a Mendral Reduziu Custos de LLM ao Atualizar para Opus: Padrão Triager, Acesso SQL e Arquitetura de Sub-Agente

A Mendral mudou do Sonnet para o Opus 4.6 na análise de falhas de CI, mas reduziu custos usando um triador Haiku para desviar 80% das falhas, dando aos agentes acesso SQL ao ClickHouse em vez de enviar logs, e gerando subagentes baratos para fazer a investigação real.

OpenClawRadar