DeepSeek-V4-Flash: 85 Tok/s auf 2x RTX PRO 6000 Max-Q

DeepSeek-V4-Flash läuft mit 85,52 Tok/s @ 524k Kontext und ~111 Tok/s @ 128k Einzelstream auf 2× RTX PRO 6000 Max-Q (je 96 GB, ohne NVLink). Das Quant verwendet pasta-pauls W4A16-FP8-Basis, jedoch mit nachgerüstetem MTP-Head (das ursprüngliche Quant entfernt MTP stillschweigend beim Laden). Details unten.

Benchmarks

pasta-paul Basis, ohne MTP, 524k: 52,85 Tok/s, 91 ms TTFT (Referenz)
Dieses Modell, 524k 2-Stream: 85,52 Tok/s, 155 ms TTFT (+62 %)
Dieses Modell, 128k Einzelstream: ~111 Tok/s, ~310 ms TTFT (+110 %)
Sanity-Benchmarks (kleine Stichproben): GSM8K 93 %, MMLU 53 %, HumanEval (syntaktisch) 90 %

Quantisierungsdetails

768 geroutete Expert-Tensoren (256 Experten × {w1, w2, w3}): W4A16 INT4 group=128 sym, GPTQ (Frantar mit Cholesky H⁻¹). Kalibriert mit 256 ultrachat_200k Prompts × 256 max_tokens – 17.701 MTP-Forward-Dumps, 473k Tokens.
5 Aufmerksamkeitsprojektionen: FP8_BLOCK (Upstream FP8-Gewichte, umbenannt scale → weight_scale für Kompatibilität mit compressed-tensors).
Geteilte Experten, e_proj, h_proj, Normen, Gate, attn_sink: BF16 / FP32.

Max-Q-spezifische Korrekturen

Übergeben Sie --disable-custom-all-reduce auf Max-Q-Workstation-Karten (kein NVLink). vLLMs CustomAllreduce verwendet CUDA P2P und führt bei PCIe-only-Topologie zu Deadlocks. NCCL-Tuning für niedrigere TTFT (~91 ms vs ~155 ms):

NCCL_PROTO=LL NCCL_ALGO=Ring NCCL_MIN_NCHANNELS=8 NCCL_NTHREADS=512

Ausführung

Erfordert den gepatchten vLLM-Fork von pasta-pauls Arbeitsbereich mit MTP-Patches. Beispielbefehl:

vllm serve LordNeel/DeepSeek-V4-Flash-Acti-MTP-W4A16-FP8 \
--tensor-parallel-size 2 --kv-cache-dtype fp8 --block-size 256 \
--max-model-len 524288 --max-num-seqs 2 \
--gpu-memory-utilization 0.93 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 --enable-auto-tool-choice \
--reasoning-parser deepseek_v4 \
--trust-remote-code \
--disable-custom-all-reduce \
--speculative-config '{"method":"mtp","num_speculative_tokens":1}' \
--host 0.0.0.0 --port 8000

Das Modell enthält auch ein AGENTS.md-Runbook für die Einrichtung über KI-Coding-Agenten (Claude/Codex/Cursor).

📖 Vollständige Quelle lesen: r/LocalLLaMA