RTX 5080 16 GB: Qwen3.6 35B MoE bei 128k Kontext — 56 Tok/s und warum MTP nicht hilft

Der Mainline-llama.cpp-Commit b9190 hat MTP (Multi-Token Prediction) integriert. Benchmarks auf einer RTX 5080 16GB mit Qwen3.6 35B MoE bei 128k Kontext zeigen einen klaren Befund: MTP verschlechtert die Leistung, wenn das Modell nicht vollständig auf die GPU passt.
Die beste Konfiguration (ohne MTP)
Qwen3.6-35B-A3B Q4_K_XL --fit-target 1536 bei 131k Kontext liefert:
- 56 tok/s Generierung
- 1.584 tok/s Prompt-Verarbeitung bei 128k Kontext
Keine MTP-Flags nötig.
Warum MTP 35B MoE auf 16 GB verlangsamt
Drei Konfigurationen bei Coding-Agent-Kontextlängen getestet:
- 27B IQ3+MTP: 12,45 GB, vollständig auf GPU — durchschnittlich 73 tok/s (MTP hilft)
- 35B Q4_K_XL+MTP: ~22 GB, teilweise Auslagerung — durchschnittlich 74 tok/s (MTP schadet)
- 35B Q8_0+MTP: ~36 GB, starke Auslagerung — durchschnittlich 46 tok/s
Ohne MTP erreicht die 35B Q4_K_XL 97 tok/s bei --fit-target 0 (15.815 MiB VRAM) und 86 tok/s bei --fit-target 1536 (14.269 MiB). Mit aktiviertem MTP bei --fit-target 1536 sinkt die Geschwindigkeit auf 74 tok/s (14.623 MiB) — eine Verlangsamung um 23%.
Die Ursache: Der Rechenpuffer von MTP reserviert ~1,5 GB (--fit-target 1536), wodurch ~3 weitere MoE-Expertenschichten von der GPU auf die CPU verlagert werden. Da die MoE-Inferenz durch CPU-gebundene Expertenschichten zum Engpass wird, kann die 79%ige Token-Akzeptanzrate von MTP die langsamere Schrittgeschwindigkeit nicht ausgleichen.
Beim 27B-Modell (passt vollständig auf die GPU) funktioniert --fit-target 0 mit oder ohne MTP, daher kein VRAM-Nachteil — MTP steigert die Geschwindigkeit von ~56 auf 73 tok/s.
Faustregel
MTP hilft, wenn Ihr Modell auf die GPU passt. Es schadet, wenn der MTP-Rechenpuffer mehr Schichten auf die CPU zwingt. Auf 16-GB-Karten mit 35B MoE MTP auslassen.
Vollständiges Testsystem: RTX 5080 16GB, Ryzen 9 9950X, 128GB RAM, llama.cpp b9204 (Mainline). Übliche MTP-Flags: -np 1 --fit on -fa on -t 20 --no-mmap --jinja -ctk q8_0 -ctv q8_0 --spec-type draft-mtp --spec-draft-n-max 2.
📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

Claude Cowork vereinheitlicht Slash-Befehle und Fähigkeiten unter einem einzigen Konzept.
Claude Cowork hat Slash-Befehle und Skills unter einem einheitlichen Konzept namens 'Skills' zusammengefasst und damit separate Überschriften im /-Menü eliminiert. Legacy-Befehle funktionieren weiterhin wie zuvor.

Strukturierter Workflow schlägt Planungsmodus und Superkräfte im KI-DES-Benchmark
Ouroboros-Workflow auf Platz 1 der KI-gestützten Benchmark für diskrete Ereignissimulationen, schlägt Claudes Plan-Modus und den Fat-Skill-Superpowers-Ansatz durch einen strukturierten Klären-Planen-Ausführen-Bewerten-Wiederherstellen-Wiederholen-Zyklus.

Apple nutzt Google Gemini Zugang für On-Device-AI-Modell-Destillation
Apple hat vollen Zugriff auf Googles Gemini-Modell zur Destillation und erstellt kleinere KI-Modelle auf dem Gerät für Siri und andere Funktionen in iOS 27 ohne Internetverbindung.

DeepSeek V4 Preise im Realitätscheck: 178x günstigere gecachte Tokens im Vergleich zu Opus, aber Leistungsdefizit eingeräumt
DeepSeek V4 Pro Input für $0,145/M Tokens vs. Claude Opus 4.7 für $5/M (34x günstiger); Cache-Treffer für $0,0036/M vs. $0,625/M (173x günstiger). Die Leistung liegt 3–6 Monate hinter GPT-5.4 und Gemini 3.1 Pro.