Qwen3.6 35B MoE auf RTX 5080: 56 tok/s bei 128k, MTP bremst

Der Mainline-llama.cpp-Commit b9190 hat MTP (Multi-Token Prediction) integriert. Benchmarks auf einer RTX 5080 16GB mit Qwen3.6 35B MoE bei 128k Kontext zeigen einen klaren Befund: MTP verschlechtert die Leistung, wenn das Modell nicht vollständig auf die GPU passt.

Die beste Konfiguration (ohne MTP)

Qwen3.6-35B-A3B Q4_K_XL --fit-target 1536 bei 131k Kontext liefert:

56 tok/s Generierung
1.584 tok/s Prompt-Verarbeitung bei 128k Kontext

Keine MTP-Flags nötig.

Warum MTP 35B MoE auf 16 GB verlangsamt

Drei Konfigurationen bei Coding-Agent-Kontextlängen getestet:

27B IQ3+MTP: 12,45 GB, vollständig auf GPU — durchschnittlich 73 tok/s (MTP hilft)
35B Q4_K_XL+MTP: ~22 GB, teilweise Auslagerung — durchschnittlich 74 tok/s (MTP schadet)
35B Q8_0+MTP: ~36 GB, starke Auslagerung — durchschnittlich 46 tok/s

Ohne MTP erreicht die 35B Q4_K_XL 97 tok/s bei --fit-target 0 (15.815 MiB VRAM) und 86 tok/s bei --fit-target 1536 (14.269 MiB). Mit aktiviertem MTP bei --fit-target 1536 sinkt die Geschwindigkeit auf 74 tok/s (14.623 MiB) — eine Verlangsamung um 23%.

Die Ursache: Der Rechenpuffer von MTP reserviert ~1,5 GB (--fit-target 1536), wodurch ~3 weitere MoE-Expertenschichten von der GPU auf die CPU verlagert werden. Da die MoE-Inferenz durch CPU-gebundene Expertenschichten zum Engpass wird, kann die 79%ige Token-Akzeptanzrate von MTP die langsamere Schrittgeschwindigkeit nicht ausgleichen.

Beim 27B-Modell (passt vollständig auf die GPU) funktioniert --fit-target 0 mit oder ohne MTP, daher kein VRAM-Nachteil — MTP steigert die Geschwindigkeit von ~56 auf 73 tok/s.

Faustregel

MTP hilft, wenn Ihr Modell auf die GPU passt. Es schadet, wenn der MTP-Rechenpuffer mehr Schichten auf die CPU zwingt. Auf 16-GB-Karten mit 35B MoE MTP auslassen.

Vollständiges Testsystem: RTX 5080 16GB, Ryzen 9 9950X, 128GB RAM, llama.cpp b9204 (Mainline). Übliche MTP-Flags: -np 1 --fit on -fa on -t 20 --no-mmap --jinja -ctk q8_0 -ctv q8_0 --spec-type draft-mtp --spec-draft-n-max 2.

📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA

RTX 5080 16 GB: Qwen3.6 35B MoE bei 128k Kontext — 56 Tok/s und warum MTP nicht hilft

Die beste Konfiguration (ohne MTP)

Warum MTP 35B MoE auf 16 GB verlangsamt

Faustregel

👀 Siehe auch

OpenClaw-Treffen in Peking lockt zahlreiches technisches Publikum an

Spannungen eskalieren zwischen dem Pentagon und dem KI-Unternehmen Anthropic.

Benutzer berichten, dass Sonnet 4.6 Opus 4.6 bei praktischen Programmieraufgaben übertrifft

SubQ: Erstes vollständig subquadratisches LLM mit 12-Millionen-Token-Kontext und 95 % RULER-Genauigkeit