MTP + Memória Unificada Aumenta Inferência do llama.cpp em 30% na RTX 5090
Combinar GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 com a especulação Multi-Token Prediction (MTP) no llama.cpp resulta em uma melhoria de ~30% na taxa de transferência — 64 tok/s vs 49 tok/s em um modelo Qwen3.6-27B Q8_0. O benchmark foi executado em uma RTX 5090 com 128 GB DDR5 5600 CL36 e um Ryzen 9 9950X3D.
Comando e Configuração
CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \
-m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \
--threads 16 \
-c 262144 -fa on -np 1 \
--spec-type mtp --spec-draft-n-max 3 \
--webui-mcp-proxy \
--chat-template-kwargs '{"preserve_thinking": true}' \
--host 0.0.0.0 \
--port 8090 \
--jinja
Flags principais:
GGML_CUDA_ENABLE_UNIFIED_MEMORY=1— permite que a GPU acesse diretamente a memória do host, ignorando o malloc CUDA para contextos grandes.--spec-type mtp --spec-draft-n-max 3— ativa a especulação Multi-Token Prediction com profundidade de rascunho 3.Qwen3.6-27B-Q8_0.gguf— um modelo Qwen3.6 de 27B parâmetros quantizado para Q8_0, preparado com suporte MTP do Unsloth.-c 262144— janela de contexto de 256K;-fa onpara atenção flash.
Resultados
- Sem MTP (apenas memória unificada): 49 tok/s
- Com MTP + memória unificada: 64 tok/s
- Ganho: 30% mais taxa de transferência
O draft-n-max de 3 significa que o modelo especula até 3 tokens à frente, reduzindo a sobrecarga de decodificação serial. Combinado com a memória unificada, evita transferências PCIe caras entre a RAM da CPU e da GPU.
Para Quem É
Desenvolvedores executando inferência local com contexto grande em GPUs consumidor de ponta (RTX 5090) com bastante RAM do sistema (≥128 GB). Adequado para chatbots, assistentes de código ou qualquer workload de LLM sensível à latência onde a amostragem especulativa é suportada.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Extensão Local AI do VS Code bloqueia geração de código inseguro durante salvamentos
Um desenvolvedor criou uma extensão do VS Code que executa o modelo llama3.1:8b-instruct-q4 localmente para interceptar salvamentos, mapear fluxos de execução de origem para destino e bloquear código inseguro gerado por IA, como vulnerabilidades de injeção de logs CWE-117.

ddash: Ferramenta de Diagrama Mermaid com Armazenamento Baseado em URL e Integração de Código Claude
ddash é uma ferramenta gratuita de diagramas Mermaid onde todo o diagrama é comprimido no hash da URL, não exigindo backend, contas ou armazenamento. Inclui uma habilidade Claude Code que permite gerar e abrir diagramas diretamente durante conversas com comandos como /diagram the auth flow.

Gerenciador de Projetos Local no Estilo Trello para Agentes OpenClaw
Um desenvolvedor construiu uma ferramenta local de gerenciamento de projetos semelhante ao Trello que roda na mesma máquina que seu agente OpenClaw, armazenando cartões como arquivos markdown com frontmatter YAML. O sistema usa Node.js/Express para a API, React para a interface e permite que o agente de IA leia/escreva arquivos diretamente no sistema de arquivos.

Como a Mendral Reduziu Custos de LLM ao Atualizar para Opus: Padrão Triager, Acesso SQL e Arquitetura de Sub-Agente
A Mendral mudou do Sonnet para o Opus 4.6 na análise de falhas de CI, mas reduziu custos usando um triador Haiku para desviar 80% das falhas, dando aos agentes acesso SQL ao ClickHouse em vez de enviar logs, e gerando subagentes baratos para fazer a investigação real.