MTP + Unified Memory steigert llama.cpp Inferenz um 30% auf RTX 5090

✍️ OpenClawRadar📅 Veröffentlicht: 12. Mai 2026🔗 Source
Ad

Die Kombination von GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 mit Multi-Token Prediction (MTP)-Spekulation in llama.cpp führt zu einer etwa 30% höheren Durchsatzrate – 64 tok/s statt 49 tok/s bei einem Qwen3.6-27B Q8_0-Modell. Der Benchmark wurde auf einer RTX 5090 mit 128 GB DDR5 5600 CL36 und einem Ryzen 9 9950X3D durchgeführt.

Befehl & Konfiguration

CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \
    -m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \
    --threads 16 \
    -c 262144 -fa on -np 1 \
    --spec-type mtp --spec-draft-n-max 3 \
    --webui-mcp-proxy \
    --chat-template-kwargs '{"preserve_thinking": true}' \
    --host 0.0.0.0 \
    --port 8090 \
    --jinja

Wichtige Flags:

  • GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 – erlaubt der GPU direkten Zugriff auf den Hostspeicher und umgeht CUDA malloc für große Kontexte.
  • --spec-type mtp --spec-draft-n-max 3 – aktiviert Multi-Token Prediction-Spekulation mit einer Draft-Tiefe von 3.
  • Qwen3.6-27B-Q8_0.gguf – ein 27B-Parameter-Qwen3.6-Modell, quantisiert auf Q8_0, vorbereitet mit Unsloths MTP-Unterstützung.
  • -c 262144 – 256K-Kontextfenster; -fa on für Flash Attention.
Ad

Ergebnisse

  • Ohne MTP (nur Unified Memory): 49 tok/s
  • Mit MTP + Unified Memory: 64 tok/s
  • Steigerung: 30% höherer Durchsatz

Der Wert draft-n-max von 3 bedeutet, dass das Modell bis zu 3 Token vorausschätzt und so den Overhead des seriellen Dekodierens reduziert. In Kombination mit Unified Memory werden teure PCIe-Transfers zwischen CPU- und GPU-RAM vermieden.

Für wen ist das gedacht

Entwickler, die lokale Inferenz mit großen Kontexten auf leistungsstarken Consumer-GPUs (RTX 5090) mit reichlich Arbeitsspeicher (≥128 GB) betreiben. Geeignet für Chatbots, Code-Assistenten oder jede latenzsensitive LLM-Workload, die spekulatives Sampling unterstützt.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Ad

👀 Siehe auch

TUI Studio: Visuelles Terminal-UI-Design-Tool in der Alpha-Phase
Werkzeuge

TUI Studio: Visuelles Terminal-UI-Design-Tool in der Alpha-Phase

TUI Studio ist ein Figma-ähnlicher visueller Editor zum Gestalten von Terminal-Benutzeroberflächen mit Drag-and-Drop-Komponenten, Echtzeit-ANSI-Vorschau und geplantem Export zu sechs Frameworks, darunter Ink, BubbleTea und Textual. Derzeit in der Alpha-Phase mit nicht funktionierenden Exporten, verfügbar für macOS, Windows und Docker.

OpenClawRadar
Leanstral: Open-Source-Code-Agent für Lean 4 und formales Proof Engineering
Werkzeuge

Leanstral: Open-Source-Code-Agent für Lean 4 und formales Proof Engineering

Mistral AI veröffentlichte Leanstral, den ersten Open-Source-Code-Agenten für Lean 4, mit 6B aktiven Parametern und Apache-2.0-Lizenz. Benchmarks zeigen, dass er größere Open-Source-Modelle übertrifft und bei deutlich geringeren Kosten eine wettbewerbsfähige Leistung zu Claude bietet.

OpenClawRadar
Kontext-Gateway: Ein Open-Source-Proxy zur Komprimierung von KI-Agenten-Kontext
Werkzeuge

Kontext-Gateway: Ein Open-Source-Proxy zur Komprimierung von KI-Agenten-Kontext

Context Gateway ist ein Open-Source-Proxy, der zwischen Coding-Agenten und LLMs sitzt und Tool-Ausgaben komprimiert, bevor sie in das Kontextfenster gelangen. Es verwendet kleine Sprachmodelle, um Signale im Kontext zu erkennen, führt Hintergrundkomprimierung bei 85% Fensterkapazität durch und beinhaltet Ausgabenobergrenzen, ein Dashboard und Slack-Benachrichtigungen.

OpenClawRadar
ClawMetry fügt Remote-Überwachung mit Ende-zu-Ende-Verschlüsselung für OpenClaw-Agenten hinzu.
Werkzeuge

ClawMetry fügt Remote-Überwachung mit Ende-zu-Ende-Verschlüsselung für OpenClaw-Agenten hinzu.

ClawMetry v0.1.0 enthält nun Cloud-Synchronisierung für die Fernüberwachung von OpenClaw-Agenten von jedem Browser oder Mac-Menüleisten-App aus, mit Ende-zu-Ende-Verschlüsselung, die Daten verschlüsselt hält, bis sie Ihren Client erreichen.

OpenClawRadar