MTP + Memoria Unificada: +30% Inferencia llama.cpp en RTX 5090

Combinar GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 con la especulación de Predicción Multitoken (MTP) en llama.cpp ofrece una mejora de rendimiento de aproximadamente el 30%: 64 tok/seg frente a 49 tok/seg en un modelo Qwen3.6-27B Q8_0. La prueba se realizó en una RTX 5090 con 128 GB de DDR5 5600 CL36 y un Ryzen 9 9950X3D.

Comando y configuración

CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \
    -m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \
    --threads 16 \
    -c 262144 -fa on -np 1 \
    --spec-type mtp --spec-draft-n-max 3 \
    --webui-mcp-proxy \
    --chat-template-kwargs '{"preserve_thinking": true}' \
    --host 0.0.0.0 \
    --port 8090 \
    --jinja

Indicadores clave:

GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 — permite que la GPU acceda directamente a la memoria del host, evitando CUDA malloc para contextos grandes.
--spec-type mtp --spec-draft-n-max 3 — habilita la especulación de Predicción Multitoken con una profundidad de borrador de 3.
Qwen3.6-27B-Q8_0.gguf — un modelo Qwen3.6 de 27B parámetros cuantizado a Q8_0, preparado con soporte MTP de Unsloth.
-c 262144 — ventana de contexto de 256K; -fa on para atención flash.

Resultados

Sin MTP (solo memoria unificada): 49 tok/seg
Con MTP + memoria unificada: 64 tok/seg
Ganancia: 30% más de rendimiento

El draft-n-max de 3 significa que el modelo especula hasta 3 tokens por adelantado, reduciendo la sobrecarga de decodificación en serie. Combinado con memoria unificada, evita transferencias PCIe costosas entre la RAM de la CPU y la GPU.

Para quién es esto

Desarrolladores que ejecutan inferencia local con contexto grande en GPUs de consumo de alta gama (RTX 5090) con amplia RAM del sistema (≥128 GB). Adecuado para chatbots, asistentes de código o cualquier carga de trabajo de LLM sensible a la latencia donde se admita el muestreo especulativo.

📖 Lea la fuente completa: r/LocalLLaMA

MTP + Memoria Unificada Aumenta la Inferencia de llama.cpp un 30% en RTX 5090

Comando y configuración

Resultados

Para quién es esto

👀 Ver también

el-chico-del-conocimiento: Convierte tu estantería en un tutor con las habilidades de Claude Code

A2P: Un servidor MCP que aplica disciplina de ingeniería para agentes de codificación con IA

Problemas del Flujo de Trabajo Multi-Agente OpenClaw: Bloqueos, Pérdida de Contexto e Ineficiencia de Tokens

Desarrollo de Lisp con Agentes de IA: Altos Costos y Desafíos Técnicos