DeepSeek-V4-Flash W4A16+FP8 mit MTP-Selbstspekulation: 85 tok/s auf 2x RTX PRO 6000 Max-Q

✍️ OpenClawRadar📅 Veröffentlicht: 10. Mai 2026🔗 Source
DeepSeek-V4-Flash W4A16+FP8 mit MTP-Selbstspekulation: 85 tok/s auf 2x RTX PRO 6000 Max-Q
Ad

DeepSeek-V4-Flash läuft mit 85,52 Tok/s @ 524k Kontext und ~111 Tok/s @ 128k Einzelstream auf 2× RTX PRO 6000 Max-Q (je 96 GB, ohne NVLink). Das Quant verwendet pasta-pauls W4A16-FP8-Basis, jedoch mit nachgerüstetem MTP-Head (das ursprüngliche Quant entfernt MTP stillschweigend beim Laden). Details unten.

Benchmarks

  • pasta-paul Basis, ohne MTP, 524k: 52,85 Tok/s, 91 ms TTFT (Referenz)
  • Dieses Modell, 524k 2-Stream: 85,52 Tok/s, 155 ms TTFT (+62 %)
  • Dieses Modell, 128k Einzelstream: ~111 Tok/s, ~310 ms TTFT (+110 %)
  • Sanity-Benchmarks (kleine Stichproben): GSM8K 93 %, MMLU 53 %, HumanEval (syntaktisch) 90 %

Quantisierungsdetails

  • 768 geroutete Expert-Tensoren (256 Experten × {w1, w2, w3}): W4A16 INT4 group=128 sym, GPTQ (Frantar mit Cholesky H⁻¹). Kalibriert mit 256 ultrachat_200k Prompts × 256 max_tokens – 17.701 MTP-Forward-Dumps, 473k Tokens.
  • 5 Aufmerksamkeitsprojektionen: FP8_BLOCK (Upstream FP8-Gewichte, umbenannt scale → weight_scale für Kompatibilität mit compressed-tensors).
  • Geteilte Experten, e_proj, h_proj, Normen, Gate, attn_sink: BF16 / FP32.
Ad

Max-Q-spezifische Korrekturen

Übergeben Sie --disable-custom-all-reduce auf Max-Q-Workstation-Karten (kein NVLink). vLLMs CustomAllreduce verwendet CUDA P2P und führt bei PCIe-only-Topologie zu Deadlocks. NCCL-Tuning für niedrigere TTFT (~91 ms vs ~155 ms):

NCCL_PROTO=LL NCCL_ALGO=Ring NCCL_MIN_NCHANNELS=8 NCCL_NTHREADS=512

Ausführung

Erfordert den gepatchten vLLM-Fork von pasta-pauls Arbeitsbereich mit MTP-Patches. Beispielbefehl:

vllm serve LordNeel/DeepSeek-V4-Flash-Acti-MTP-W4A16-FP8 \
--tensor-parallel-size 2 --kv-cache-dtype fp8 --block-size 256 \
--max-model-len 524288 --max-num-seqs 2 \
--gpu-memory-utilization 0.93 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 --enable-auto-tool-choice \
--reasoning-parser deepseek_v4 \
--trust-remote-code \
--disable-custom-all-reduce \
--speculative-config '{"method":"mtp","num_speculative_tokens":1}' \
--host 0.0.0.0 --port 8000

Das Modell enthält auch ein AGENTS.md-Runbook für die Einrichtung über KI-Coding-Agenten (Claude/Codex/Cursor).

📖 Vollständige Quelle lesen: r/LocalLLaMA

Ad

👀 Siehe auch

Behebung des Fehlers "VM-Dienst läuft nicht" in Cowork unter Windows 11
Anleitungen

Behebung des Fehlers "VM-Dienst läuft nicht" in Cowork unter Windows 11

Ein Reddit-Benutzer teilt einen PowerShell-Befehl zur Behebung des Fehlers 'VM-Dienst läuft nicht' in Cowork, wenn Hyper-V installiert ist, der Hypervisor jedoch nicht beim Start ausgeführt wird. Die Lösung umfasst die Überprüfung von hypervisorlaunchtype und dessen Einstellung auf auto.

OpenClawRadar
Umgang mit Gateway-Trennungen für effektive Automatisierung
Anleitungen

Umgang mit Gateway-Trennungen für effektive Automatisierung

Erforschen Sie praktische Lösungen zur Aufrechterhaltung des Betriebs von KI-Coding-Agenten bei Gateway-Trennungen. Zu den Tipps gehören die Überwachung mit Grafana, automatisierte Wiederverbindungs-Skripte und die Nutzung redundanter Pfade für mehr Zuverlässigkeit.

OpenClawRadar
OpenClaw v2026.3.22 Update-Probleme und 30-Sekunden-Lösungen
Anleitungen

OpenClaw v2026.3.22 Update-Probleme und 30-Sekunden-Lösungen

Das OpenClaw-Update v2026.3.22 führte 12 Breaking Changes ein, darunter die Einführung von ClawHub als Standard-Plugin-Store und die Abschaffung veralteter Umgebungsvariablen. Zu den fünf häufigsten Problemen mit schnellen Lösungen gehören plötzliche API-Kostensteigerungen, unbeabsichtigte Aktionen von Agenten und Konfigurationsfehler.

OpenClawRadar
OpenClaws Gateway und Fähigkeiten: Über Chat hinaus zu automatisierter Ausführung
Anleitungen

OpenClaws Gateway und Fähigkeiten: Über Chat hinaus zu automatisierter Ausführung

OpenClaws Gateway verbindet Kanäle wie Telegram und WhatsApp mit Skills, die reale Aktionen wie das Ausführen von Tests, das Aufrufen von APIs und das Verwalten von Dateien ausführen, wobei Cron-Jobs geplante Hintergrundautomatisierung ermöglichen.

OpenClawRadar