85 tok/s DeepSeek-V4-Flash W4A16+FP8 : 2x RTX PRO 6000

DeepSeek-V4-Flash fonctionnant à 85,52 tok/s @ contexte 524k et ~111 tok/s @ 128k en flux unique sur 2× RTX PRO 6000 Max-Q (96 Go chacun, sans NVLink). La quantification utilise la base W4A16-FP8 de pasta-paul mais avec une tête MTP rétrofitée (la quantification originale supprime silencieusement MTP au chargement). Détails clés ci-dessous.

Benchmarks

Base pasta-paul, sans MTP, 524k : 52,85 tok/s, 91 ms TTFT (référence)
Ce modèle, 524k 2 flux : 85,52 tok/s, 155 ms TTFT (+62%)
Ce modèle, 128k flux unique : ~111 tok/s, ~310 ms TTFT (+110%)
Benchmarks de validation (petits échantillons) : GSM8K 93%, MMLU 53%, HumanEval (syntaxique) 90%

Détails de quantification

768 tenseurs d'experts routés (256 experts × {w1, w2, w3}) : W4A16 INT4 groupe=128 sym, GPTQ (Frantar avec Cholesky H⁻¹). Calibré avec 256 prompts ultrachat_200k × 256 max_tokens – 17 701 déchargements forward MTP, 473k tokens.
5 projections d'attention : FP8_BLOCK (poids FP8 en amont, renommés scale → weight_scale pour compatibilité compressed-tensors).
Experts partagés, e_proj, h_proj, norms, gate, attn_sink : BF16 / FP32.

Correctifs spécifiques Max-Q

Passer --disable-custom-all-reduce sur les cartes workstation Max-Q (pas de NVLink). CustomAllreduce de vLLM utilise CUDA P2P et se bloque sur une topologie PCIe uniquement. Réglage NCCL pour TTFT plus faible (~91 ms contre ~155 ms) :

NCCL_PROTO=LL NCCL_ALGO=Ring NCCL_MIN_NCHANNELS=8 NCCL_NTHREADS=512

Comment exécuter

Nécessite le fork vLLM patché depuis l'espace de travail de pasta-paul avec les correctifs MTP. Exemple de commande :

vllm serve LordNeel/DeepSeek-V4-Flash-Acti-MTP-W4A16-FP8 \
--tensor-parallel-size 2 --kv-cache-dtype fp8 --block-size 256 \
--max-model-len 524288 --max-num-seqs 2 \
--gpu-memory-utilization 0.93 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 --enable-auto-tool-choice \
--reasoning-parser deepseek_v4 \
--trust-remote-code \
--disable-custom-all-reduce \
--speculative-config '{"method":"mtp","num_speculative_tokens":1}' \
--host 0.0.0.0 --port 8000

Le modèle inclut également un fichier AGENTS.md pour la configuration via des agents de codage IA (Claude/Codex/Cursor).

📖 Lire la source complète : r/LocalLLaMA

DeepSeek-V4-Flash W4A16+FP8 avec auto-spéculation MTP : 85 tok/s sur 2x RTX PRO 6000 Max-Q

Benchmarks

Détails de quantification

Correctifs spécifiques Max-Q

Comment exécuter

👀 See Also

Trellis 2 fonctionne avec succès sur ROCm 7.11 avec une AMD RX 9070 XT

Création d'un système de glossaire hindi personnalisé avec Claude : De 76 % à 92 % de précision en 10 mois

Utilisateur de Reddit partage une configuration pratique de Claude pour une assistance IA cohérente en programmation

Comment fonctionne réellement la mémoire d'OpenCLAW : Résoudre l'« oubli » de l'agent