MTP + Memoria Unificada Aumenta la Inferencia de llama.cpp un 30% en RTX 5090
Combinar GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 con la especulación de Predicción Multitoken (MTP) en llama.cpp ofrece una mejora de rendimiento de aproximadamente el 30%: 64 tok/seg frente a 49 tok/seg en un modelo Qwen3.6-27B Q8_0. La prueba se realizó en una RTX 5090 con 128 GB de DDR5 5600 CL36 y un Ryzen 9 9950X3D.
Comando y configuración
CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \
-m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \
--threads 16 \
-c 262144 -fa on -np 1 \
--spec-type mtp --spec-draft-n-max 3 \
--webui-mcp-proxy \
--chat-template-kwargs '{"preserve_thinking": true}' \
--host 0.0.0.0 \
--port 8090 \
--jinja
Indicadores clave:
GGML_CUDA_ENABLE_UNIFIED_MEMORY=1— permite que la GPU acceda directamente a la memoria del host, evitando CUDA malloc para contextos grandes.--spec-type mtp --spec-draft-n-max 3— habilita la especulación de Predicción Multitoken con una profundidad de borrador de 3.Qwen3.6-27B-Q8_0.gguf— un modelo Qwen3.6 de 27B parámetros cuantizado a Q8_0, preparado con soporte MTP de Unsloth.-c 262144— ventana de contexto de 256K;-fa onpara atención flash.
Resultados
- Sin MTP (solo memoria unificada): 49 tok/seg
- Con MTP + memoria unificada: 64 tok/seg
- Ganancia: 30% más de rendimiento
El draft-n-max de 3 significa que el modelo especula hasta 3 tokens por adelantado, reduciendo la sobrecarga de decodificación en serie. Combinado con memoria unificada, evita transferencias PCIe costosas entre la RAM de la CPU y la GPU.
Para quién es esto
Desarrolladores que ejecutan inferencia local con contexto grande en GPUs de consumo de alta gama (RTX 5090) con amplia RAM del sistema (≥128 GB). Adecuado para chatbots, asistentes de código o cualquier carga de trabajo de LLM sensible a la latencia donde se admita el muestreo especulativo.
📖 Lea la fuente completa: r/LocalLLaMA
👀 Ver también

Sistema de ingeniería portátil para Claude Code con ganchos, agentes especializados y automejora.
Un desarrollador construyó un sistema de ingeniería portátil que reside en ~/.claude/ y se aplica automáticamente a cada proyecto, con una constitución de 650 líneas, ganchos deterministas que bloquean comandos peligrosos, tres agentes especializados y un enfoque de ingeniería compuesta que se mejora a sí mismo.

El hook de pre-commit de Git evita que los agentes de codificación con IA realicen commits con documentación desactualizada.
Un desarrollador creó un hook de pre-commit de Git que bloquea los commits cuando los archivos de documentación están desactualizados, abordando específicamente problemas con agentes de codificación con IA como Claude Code, Cursor, Windsurf y Copilot. La herramienta sale con el código de error 1 para obligar a los agentes de IA a actualizar la documentación antes de continuar.

VectorClaw v1.0.0: Servidor MCP para el Control del Robot Anki Vector
VectorClaw v1.0.0 es un servidor MCP que permite a OpenClaw controlar robots Anki Vector a través de 23 herramientas específicas para funciones de voz, movimiento, percepción, sensores y pantalla.

AgenteMail Detalles del Fundador Sobre Incorporación Nativa para Agentes Tras Exposición de CAPTCHA por OpenClaw
AgentMail, una API de correo electrónico para agentes de IA, reconstruyó su flujo de incorporación después de que su propio agente OpenClaw fallara en un CAPTCHA de Cloudflare. El nuevo sistema ofrece un único endpoint REST para la creación programática de cuentas, manteniendo a los humanos en el bucle para la verificación.