RTX 5090 : +30% d'inférence llama.cpp avec MTP + Mémoire Unifiée

Combiner GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 avec la prédiction multi-tokens (MTP) dans llama.cpp offre une amélioration du débit d'environ 30 % — 64 tok/s contre 49 tok/s sur un modèle Qwen3.6-27B Q8_0. Le benchmark a été réalisé sur une RTX 5090 associée à 128 Go de DDR5 5600 CL36 et un Ryzen 9 9950X3D.

Commande et configuration

CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \
    -m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \
    --threads 16 \
    -c 262144 -fa on -np 1 \
    --spec-type mtp --spec-draft-n-max 3 \
    --webui-mcp-proxy \
    --chat-template-kwargs '{"preserve_thinking": true}' \
    --host 0.0.0.0 \
    --port 8090 \
    --jinja

Flags clés :

GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 — permet au GPU d'accéder directement à la mémoire hôte, contournant CUDA malloc pour les grands contextes.
--spec-type mtp --spec-draft-n-max 3 — active la spéculation MTP avec une profondeur d'ébauche de 3.
Qwen3.6-27B-Q8_0.gguf — un modèle Qwen3.6 de 27B paramètres quantifié en Q8_0, préparé avec le support MTP d'Unsloth.
-c 262144 — fenêtre de contexte de 256K ; -fa on pour l'attention flash.

Résultats

Sans MTP (mémoire unifiée seulement) : 49 tok/s
Avec MTP + mémoire unifiée : 64 tok/s
Gain : 30 % de débit en plus

Avec draft-n-max de 3, le modèle spécule jusqu'à 3 tokens à l'avance, réduisant le surcoût de décodage série. Combiné à la mémoire unifiée, cela évite les transferts PCIe coûteux entre le CPU et la RAM du GPU.

À qui cela s'adresse

Développeurs exécutant une inférence locale avec grand contexte sur des GPU grand public haut de gamme (RTX 5090) avec une RAM système abondante (≥128 Go). Convient aux chatbots, assistants de code ou toute charge de travail LLM sensible à la latence où l'échantillonnage spéculatif est pris en charge.

📖 Lire la source complète : r/LocalLLaMA

MTP + Mémoire Unifiée améliore l'inférence de llama.cpp de 30% sur RTX 5090

Commande et configuration

Résultats

À qui cela s'adresse

👀 See Also

Flue : un framework TypeScript pour construire des agents de codage autonomes

TextGen (text-generation-webui) devient une application de bureau native avec des builds portables

Agent Smith : Une commande pour structurer les serveurs MCP, les compétences et un pipeline ticket-vers-PR pour Claude Code

OpenCortex : Un système de mémoire auto-améliorant pour OpenClaw