30% schnellere llama.cpp Inferenz auf RTX 5090 mit MTP + Unified Memory

Die Kombination von GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 mit Multi-Token Prediction (MTP)-Spekulation in llama.cpp führt zu einer etwa 30% höheren Durchsatzrate – 64 tok/s statt 49 tok/s bei einem Qwen3.6-27B Q8_0-Modell. Der Benchmark wurde auf einer RTX 5090 mit 128 GB DDR5 5600 CL36 und einem Ryzen 9 9950X3D durchgeführt.

Befehl & Konfiguration

CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \
    -m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \
    --threads 16 \
    -c 262144 -fa on -np 1 \
    --spec-type mtp --spec-draft-n-max 3 \
    --webui-mcp-proxy \
    --chat-template-kwargs '{"preserve_thinking": true}' \
    --host 0.0.0.0 \
    --port 8090 \
    --jinja

Wichtige Flags:

GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 – erlaubt der GPU direkten Zugriff auf den Hostspeicher und umgeht CUDA malloc für große Kontexte.
--spec-type mtp --spec-draft-n-max 3 – aktiviert Multi-Token Prediction-Spekulation mit einer Draft-Tiefe von 3.
Qwen3.6-27B-Q8_0.gguf – ein 27B-Parameter-Qwen3.6-Modell, quantisiert auf Q8_0, vorbereitet mit Unsloths MTP-Unterstützung.
-c 262144 – 256K-Kontextfenster; -fa on für Flash Attention.

Ergebnisse

Ohne MTP (nur Unified Memory): 49 tok/s
Mit MTP + Unified Memory: 64 tok/s
Steigerung: 30% höherer Durchsatz

Der Wert draft-n-max von 3 bedeutet, dass das Modell bis zu 3 Token vorausschätzt und so den Overhead des seriellen Dekodierens reduziert. In Kombination mit Unified Memory werden teure PCIe-Transfers zwischen CPU- und GPU-RAM vermieden.

Für wen ist das gedacht

Entwickler, die lokale Inferenz mit großen Kontexten auf leistungsstarken Consumer-GPUs (RTX 5090) mit reichlich Arbeitsspeicher (≥128 GB) betreiben. Geeignet für Chatbots, Code-Assistenten oder jede latenzsensitive LLM-Workload, die spekulatives Sampling unterstützt.

📖 Vollständige Quelle lesen: r/LocalLLaMA

MTP + Unified Memory steigert llama.cpp Inferenz um 30% auf RTX 5090

Befehl & Konfiguration

Ergebnisse

Für wen ist das gedacht

👀 Siehe auch

CodeLedger und Vibecop Updates für Multi-Agent AI-Codierungskosten- und Qualitätsverfolgung

Modulus: Repository-übergreifende Wissensorchestrierung für KI-Codierungsagenten

CK Search: Lokales semantisches Suchtool mit MCP-Server-Integration

MCP-Server für semantische Suche in Obsidian-Vaults