DeepSeek-V4-Flash W4A16+FP8: 85 tok/s en 2x RTX PRO 6000 Max-Q

DeepSeek-V4-Flash funcionando a 85.52 tok/s @ 524k contexto y ~111 tok/s @ 128k flujo único en 2× RTX PRO 6000 Max-Q (96 GB cada una, sin NVLink). La cuantización usa la base W4A16-FP8 de pasta-paul pero con un cabezal MTP adaptado (la cuantización original elimina silenciosamente MTP al cargar). Detalles clave a continuación.

Puntos de referencia

Base pasta-paul, sin MTP, 524k: 52.85 tok/s, 91 ms TTFT (referencia)
Este modelo, 524k 2 flujos: 85.52 tok/s, 155 ms TTFT (+62%)
Este modelo, 128k flujo único: ~111 tok/s, ~310 ms TTFT (+110%)
Pruebas de cordura (muestras pequeñas): GSM8K 93%, MMLU 53%, HumanEval (sintáctico) 90%

Detalles de cuantización

768 tensores de experto enrutados (256 expertos × {w1, w2, w3}): W4A16 INT4 grupo=128 sim, GPTQ (Frantar con Cholesky H⁻¹). Calibrado con 256 indicaciones de ultrachat_200k × 256 max_tokens – 17,701 volcados de MTP hacia adelante, 473k tokens.
5 proyecciones de atención: FP8_BLOCK (pesos FP8 ascendentes, renombrado scale → weight_scale para compatibilidad con compressed-tensors).
Expertos compartidos, e_proj, h_proj, normas, compuerta, attn_sink: BF16 / FP32.

Correcciones específicas para Max-Q

Pase --disable-custom-all-reduce en tarjetas de estación de trabajo Max-Q (sin NVLink). CustomAllreduce de vLLM usa CUDA P2P y se bloquea en topología solo PCIe. Ajuste de NCCL para menor TTFT (~91 ms frente a ~155 ms):

NCCL_PROTO=LL NCCL_ALGO=Ring NCCL_MIN_NCHANNELS=8 NCCL_NTHREADS=512

Cómo ejecutar

Necesita la bifurcación de vLLM modificada de pasta-paul's workspace con parches MTP. Ejemplo de comando:

vllm serve LordNeel/DeepSeek-V4-Flash-Acti-MTP-W4A16-FP8 \
--tensor-parallel-size 2 --kv-cache-dtype fp8 --block-size 256 \
--max-model-len 524288 --max-num-seqs 2 \
--gpu-memory-utilization 0.93 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 --enable-auto-tool-choice \
--reasoning-parser deepseek_v4 \
--trust-remote-code \
--disable-custom-all-reduce \
--speculative-config '{"method":"mtp","num_speculative_tokens":1}' \
--host 0.0.0.0 --port 8000

El modelo también incluye un manual AGENTS.md para configurarlo mediante agentes de codificación de IA (Claude/Codex/Cursor).

📖 Leer la fuente completa: r/LocalLLaMA

DeepSeek-V4-Flash W4A16+FP8 con autospeculación MTP: 85 tok/s en 2x RTX PRO 6000 Max-Q

Puntos de referencia

Detalles de cuantización

Correcciones específicas para Max-Q

Cómo ejecutar

👀 Ver también

Patrones de flujo de trabajo prácticos para una codificación de IA confiable en proyectos con múltiples archivos

La Investigación Muestra que la Elaboración Efectiva de Indicaciones de IA es Comunicación Cooperativa, No Ingeniería

Solución Alternativa con Accesos Directos de iOS para Enviar Fotos del iPhone a Cowork mediante Sincronización de iCloud

Consejos Prácticos de OpenClaw: Comenzar Pequeño, Evitar Errores Comunes