MTP + Unified Memory steigert llama.cpp Inferenz um 30% auf RTX 5090
Die Kombination von GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 mit Multi-Token Prediction (MTP)-Spekulation in llama.cpp führt zu einer etwa 30% höheren Durchsatzrate – 64 tok/s statt 49 tok/s bei einem Qwen3.6-27B Q8_0-Modell. Der Benchmark wurde auf einer RTX 5090 mit 128 GB DDR5 5600 CL36 und einem Ryzen 9 9950X3D durchgeführt.
Befehl & Konfiguration
CUDA_VISIBLE_DEVICES=0 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 /home/marcin/llama-server \
-m /home/marcin/Pobrane/Qwen3.6-27B-Q8_0.gguf \
--threads 16 \
-c 262144 -fa on -np 1 \
--spec-type mtp --spec-draft-n-max 3 \
--webui-mcp-proxy \
--chat-template-kwargs '{"preserve_thinking": true}' \
--host 0.0.0.0 \
--port 8090 \
--jinja
Wichtige Flags:
GGML_CUDA_ENABLE_UNIFIED_MEMORY=1– erlaubt der GPU direkten Zugriff auf den Hostspeicher und umgeht CUDA malloc für große Kontexte.--spec-type mtp --spec-draft-n-max 3– aktiviert Multi-Token Prediction-Spekulation mit einer Draft-Tiefe von 3.Qwen3.6-27B-Q8_0.gguf– ein 27B-Parameter-Qwen3.6-Modell, quantisiert auf Q8_0, vorbereitet mit Unsloths MTP-Unterstützung.-c 262144– 256K-Kontextfenster;-fa onfür Flash Attention.
Ergebnisse
- Ohne MTP (nur Unified Memory): 49 tok/s
- Mit MTP + Unified Memory: 64 tok/s
- Steigerung: 30% höherer Durchsatz
Der Wert draft-n-max von 3 bedeutet, dass das Modell bis zu 3 Token vorausschätzt und so den Overhead des seriellen Dekodierens reduziert. In Kombination mit Unified Memory werden teure PCIe-Transfers zwischen CPU- und GPU-RAM vermieden.
Für wen ist das gedacht
Entwickler, die lokale Inferenz mit großen Kontexten auf leistungsstarken Consumer-GPUs (RTX 5090) mit reichlich Arbeitsspeicher (≥128 GB) betreiben. Geeignet für Chatbots, Code-Assistenten oder jede latenzsensitive LLM-Workload, die spekulatives Sampling unterstützt.
📖 Vollständige Quelle lesen: r/LocalLLaMA
👀 Siehe auch

TUI Studio: Visuelles Terminal-UI-Design-Tool in der Alpha-Phase
TUI Studio ist ein Figma-ähnlicher visueller Editor zum Gestalten von Terminal-Benutzeroberflächen mit Drag-and-Drop-Komponenten, Echtzeit-ANSI-Vorschau und geplantem Export zu sechs Frameworks, darunter Ink, BubbleTea und Textual. Derzeit in der Alpha-Phase mit nicht funktionierenden Exporten, verfügbar für macOS, Windows und Docker.

Leanstral: Open-Source-Code-Agent für Lean 4 und formales Proof Engineering
Mistral AI veröffentlichte Leanstral, den ersten Open-Source-Code-Agenten für Lean 4, mit 6B aktiven Parametern und Apache-2.0-Lizenz. Benchmarks zeigen, dass er größere Open-Source-Modelle übertrifft und bei deutlich geringeren Kosten eine wettbewerbsfähige Leistung zu Claude bietet.

Kontext-Gateway: Ein Open-Source-Proxy zur Komprimierung von KI-Agenten-Kontext
Context Gateway ist ein Open-Source-Proxy, der zwischen Coding-Agenten und LLMs sitzt und Tool-Ausgaben komprimiert, bevor sie in das Kontextfenster gelangen. Es verwendet kleine Sprachmodelle, um Signale im Kontext zu erkennen, führt Hintergrundkomprimierung bei 85% Fensterkapazität durch und beinhaltet Ausgabenobergrenzen, ein Dashboard und Slack-Benachrichtigungen.

ClawMetry fügt Remote-Überwachung mit Ende-zu-Ende-Verschlüsselung für OpenClaw-Agenten hinzu.
ClawMetry v0.1.0 enthält nun Cloud-Synchronisierung für die Fernüberwachung von OpenClaw-Agenten von jedem Browser oder Mac-Menüleisten-App aus, mit Ende-zu-Ende-Verschlüsselung, die Daten verschlüsselt hält, bis sie Ihren Client erreichen.