DeepSeek-V4-Flash W4A16+FP8 avec auto-spéculation MTP : 85 tok/s sur 2x RTX PRO 6000 Max-Q

✍️ OpenClawRadar📅 Publié: May 10, 2026🔗 Source
DeepSeek-V4-Flash W4A16+FP8 avec auto-spéculation MTP : 85 tok/s sur 2x RTX PRO 6000 Max-Q
Ad

DeepSeek-V4-Flash fonctionnant à 85,52 tok/s @ contexte 524k et ~111 tok/s @ 128k en flux unique sur 2× RTX PRO 6000 Max-Q (96 Go chacun, sans NVLink). La quantification utilise la base W4A16-FP8 de pasta-paul mais avec une tête MTP rétrofitée (la quantification originale supprime silencieusement MTP au chargement). Détails clés ci-dessous.

Benchmarks

  • Base pasta-paul, sans MTP, 524k : 52,85 tok/s, 91 ms TTFT (référence)
  • Ce modèle, 524k 2 flux : 85,52 tok/s, 155 ms TTFT (+62%)
  • Ce modèle, 128k flux unique : ~111 tok/s, ~310 ms TTFT (+110%)
  • Benchmarks de validation (petits échantillons) : GSM8K 93%, MMLU 53%, HumanEval (syntaxique) 90%

Détails de quantification

  • 768 tenseurs d'experts routés (256 experts × {w1, w2, w3}) : W4A16 INT4 groupe=128 sym, GPTQ (Frantar avec Cholesky H⁻¹). Calibré avec 256 prompts ultrachat_200k × 256 max_tokens – 17 701 déchargements forward MTP, 473k tokens.
  • 5 projections d'attention : FP8_BLOCK (poids FP8 en amont, renommés scale → weight_scale pour compatibilité compressed-tensors).
  • Experts partagés, e_proj, h_proj, norms, gate, attn_sink : BF16 / FP32.
Ad

Correctifs spécifiques Max-Q

Passer --disable-custom-all-reduce sur les cartes workstation Max-Q (pas de NVLink). CustomAllreduce de vLLM utilise CUDA P2P et se bloque sur une topologie PCIe uniquement. Réglage NCCL pour TTFT plus faible (~91 ms contre ~155 ms) :

NCCL_PROTO=LL NCCL_ALGO=Ring NCCL_MIN_NCHANNELS=8 NCCL_NTHREADS=512

Comment exécuter

Nécessite le fork vLLM patché depuis l'espace de travail de pasta-paul avec les correctifs MTP. Exemple de commande :

vllm serve LordNeel/DeepSeek-V4-Flash-Acti-MTP-W4A16-FP8 \
--tensor-parallel-size 2 --kv-cache-dtype fp8 --block-size 256 \
--max-model-len 524288 --max-num-seqs 2 \
--gpu-memory-utilization 0.93 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 --enable-auto-tool-choice \
--reasoning-parser deepseek_v4 \
--trust-remote-code \
--disable-custom-all-reduce \
--speculative-config '{"method":"mtp","num_speculative_tokens":1}' \
--host 0.0.0.0 --port 8000

Le modèle inclut également un fichier AGENTS.md pour la configuration via des agents de codage IA (Claude/Codex/Cursor).

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Test de Contrat pour le Développement Piloté par l'IA avec OpenClaw
Guides

Test de Contrat pour le Développement Piloté par l'IA avec OpenClaw

Les tests de contrat peuvent remplacer les tests d'intégration/E2E lors de l'utilisation d'agents IA comme OpenClaw, en se concentrant sur les interfaces et les invariants entre les composants. L'IA génère du code pour satisfaire des contrats déterministes, créant une boucle de rétroaction serrée pour une itération plus rapide.

OpenClawRadar
Arrêtez de demander quel modèle d'IA utiliser : Acheminez les tâches vers les niveaux Haiku, Sonnet et Opus
Guides

Arrêtez de demander quel modèle d'IA utiliser : Acheminez les tâches vers les niveaux Haiku, Sonnet et Opus

Utilisez au moins trois modèles par type de tâche : niveau Haïku pour la lecture/résumé, niveau Sonnet pour écrire du code, et niveau Opus uniquement pour les refontes multi-fichiers et le débogage. La configuration d'un utilisateur achemine 40 % vers des modèles bon marché, 35 % vers des modèles intermédiaires, 25 % vers des modèles de pointe, pour un coût d'environ 30 à 40 $/mois.

OpenClawRadar
La méthode de prompting en deux phases d'un développeur solo pour les grands projets avec Claude AI
Guides

La méthode de prompting en deux phases d'un développeur solo pour les grands projets avec Claude AI

Un développeur solo partage un flux de travail utilisant Claude Chat comme architecte et Claude Code comme constructeur, avec une méthode de prompt en deux phases incluant l'analyse des modes de défaillance et des portes de vérification.

OpenClawRadar
Tirer le meilleur parti de Claude : le workflow d'un analyste de données avec Cowork et Claude Code
Guides

Tirer le meilleur parti de Claude : le workflow d'un analyste de données avec Cowork et Claude Code

Un analyste de données sans expérience en codage partage comment il utilise Cowork pour l'automatisation de bout en bout et Claude Code pour les tâches lourdes — construisant un outil de génération de leads utilisant l'API Google Places, un tableau de bord anti-fraude et une publication automatisée sur les réseaux sociaux.

OpenClawRadar