MTP + Memoria Unificada Aumenta la Inferencia de llama.cpp un 30% en RTX 5090

✍️ OpenClawRadar📅 Publicado: 12 de mayo de 2026🔗 Source
Ad

Combinar GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 con la especulación de Predicción Multitoken (MTP) en llama.cpp ofrece una mejora de rendimiento de aproximadamente el 30%: 64 tok/seg frente a 49 tok/seg en un modelo Qwen3.6-27B Q8_0. La prueba se realizó en una RTX 5090 con 128 GB de DDR5 5600 CL36 y un Ryzen 9 9950X3D.

Comando y configuración

CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \
    -m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \
    --threads 16 \
    -c 262144 -fa on -np 1 \
    --spec-type mtp --spec-draft-n-max 3 \
    --webui-mcp-proxy \
    --chat-template-kwargs '{"preserve_thinking": true}' \
    --host 0.0.0.0 \
    --port 8090 \
    --jinja

Indicadores clave:

  • GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 — permite que la GPU acceda directamente a la memoria del host, evitando CUDA malloc para contextos grandes.
  • --spec-type mtp --spec-draft-n-max 3 — habilita la especulación de Predicción Multitoken con una profundidad de borrador de 3.
  • Qwen3.6-27B-Q8_0.gguf — un modelo Qwen3.6 de 27B parámetros cuantizado a Q8_0, preparado con soporte MTP de Unsloth.
  • -c 262144 — ventana de contexto de 256K; -fa on para atención flash.
Ad

Resultados

  • Sin MTP (solo memoria unificada): 49 tok/seg
  • Con MTP + memoria unificada: 64 tok/seg
  • Ganancia: 30% más de rendimiento

El draft-n-max de 3 significa que el modelo especula hasta 3 tokens por adelantado, reduciendo la sobrecarga de decodificación en serie. Combinado con memoria unificada, evita transferencias PCIe costosas entre la RAM de la CPU y la GPU.

Para quién es esto

Desarrolladores que ejecutan inferencia local con contexto grande en GPUs de consumo de alta gama (RTX 5090) con amplia RAM del sistema (≥128 GB). Adecuado para chatbots, asistentes de código o cualquier carga de trabajo de LLM sensible a la latencia donde se admita el muestreo especulativo.

📖 Lea la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Sistema de ingeniería portátil para Claude Code con ganchos, agentes especializados y automejora.
Herramientas

Sistema de ingeniería portátil para Claude Code con ganchos, agentes especializados y automejora.

Un desarrollador construyó un sistema de ingeniería portátil que reside en ~/.claude/ y se aplica automáticamente a cada proyecto, con una constitución de 650 líneas, ganchos deterministas que bloquean comandos peligrosos, tres agentes especializados y un enfoque de ingeniería compuesta que se mejora a sí mismo.

OpenClawRadar
El hook de pre-commit de Git evita que los agentes de codificación con IA realicen commits con documentación desactualizada.
Herramientas

El hook de pre-commit de Git evita que los agentes de codificación con IA realicen commits con documentación desactualizada.

Un desarrollador creó un hook de pre-commit de Git que bloquea los commits cuando los archivos de documentación están desactualizados, abordando específicamente problemas con agentes de codificación con IA como Claude Code, Cursor, Windsurf y Copilot. La herramienta sale con el código de error 1 para obligar a los agentes de IA a actualizar la documentación antes de continuar.

OpenClawRadar
VectorClaw v1.0.0: Servidor MCP para el Control del Robot Anki Vector
Herramientas

VectorClaw v1.0.0: Servidor MCP para el Control del Robot Anki Vector

VectorClaw v1.0.0 es un servidor MCP que permite a OpenClaw controlar robots Anki Vector a través de 23 herramientas específicas para funciones de voz, movimiento, percepción, sensores y pantalla.

OpenClawRadar
AgenteMail Detalles del Fundador Sobre Incorporación Nativa para Agentes Tras Exposición de CAPTCHA por OpenClaw
Herramientas

AgenteMail Detalles del Fundador Sobre Incorporación Nativa para Agentes Tras Exposición de CAPTCHA por OpenClaw

AgentMail, una API de correo electrónico para agentes de IA, reconstruyó su flujo de incorporación después de que su propio agente OpenClaw fallara en un CAPTCHA de Cloudflare. El nuevo sistema ofrece un único endpoint REST para la creación programática de cuentas, manteniendo a los humanos en el bucle para la verificación.

OpenClawRadar