DeepSeek-V4-Flash W4A16+FP8: 85 tok/s em 2x RTX PRO 6000 Max-Q

DeepSeek-V4-Flash rodando a 85.52 tok/s @ 524k de contexto e ~111 tok/s @ 128k single-stream em 2× RTX PRO 6000 Max-Q (96 GB cada, sem NVLink). A quantização usa a base W4A16-FP8 do pasta-paul, mas com uma cabeça MTP adaptada (a quantização original remove silenciosamente o MTP no carregamento). Detalhes abaixo.

Benchmarks

pasta-paul base, sem MTP, 524k: 52.85 tok/s, 91 ms TTFT (referência)
Este modelo, 524k 2-stream: 85.52 tok/s, 155 ms TTFT (+62%)
Este modelo, 128k single-stream: ~111 tok/s, ~310 ms TTFT (+110%)
Benchmarks de sanidade (amostras pequenas): GSM8K 93%, MMLU 53%, HumanEval (sintático) 90%

Detalhes da Quantização

768 tensores de especialistas roteados (256 especialistas × {w1, w2, w3}): W4A16 INT4 grupo=128 sym, GPTQ (Frantar com Cholesky H⁻¹). Calibrado com 256 prompts ultrachat_200k × 256 max_tokens – 17.701 dumps forward MTP, 473k tokens.
5 projeções de atenção: FP8_BLOCK (pesos FP8 upstream, renomeados scale → weight_scale para compatibilidade com compressed-tensors).
Especialistas compartilhados, e_proj, h_proj, normas, gate, attn_sink: BF16 / FP32.

Correções Específicas para Max-Q

Passe --disable-custom-all-reduce em placas workstation Max-Q (sem NVLink). O CustomAllreduce do vLLM usa CUDA P2P e trava em topologia PCIe-only. Ajuste NCCL para TTFT mais baixo (~91 ms vs ~155 ms):

NCCL_PROTO=LL NCCL_ALGO=Ring NCCL_MIN_NCHANNELS=8 NCCL_NTHREADS=512

Como Executar

Requer o fork do vLLM modificado do workspace do pasta-paul com patches MTP. Exemplo de comando:

vllm serve LordNeel/DeepSeek-V4-Flash-Acti-MTP-W4A16-FP8 \
--tensor-parallel-size 2 --kv-cache-dtype fp8 --block-size 256 \
--max-model-len 524288 --max-num-seqs 2 \
--gpu-memory-utilization 0.93 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 --enable-auto-tool-choice \
--reasoning-parser deepseek_v4 \
--trust-remote-code \
--disable-custom-all-reduce \
--speculative-config '{"method":"mtp","num_speculative_tokens":1}' \
--host 0.0.0.0 --port 8000

O modelo também inclui um runbook AGENTS.md para configuração via agentes de codificação de IA (Claude/Codex/Cursor).

📖 Leia a fonte completa: r/LocalLLaMA

DeepSeek-V4-Flash W4A16+FP8 com MTP Autospeculação: 85 tok/s em 2x RTX PRO 6000 Max-Q

Benchmarks

Detalhes da Quantização

Correções Específicas para Max-Q

Como Executar

👀 See Also

OpenClaw: Sua Folha de Dicas de Referência Rápida Definitiva

Dominando o OpenClaw 101: Um Guia para Iniciantes Inspirado em Insights do Reddit

Camoufox Injeção de Cookie: Navegue no Reddit como Você Enquanto Seu Agente Faz o Trabalho

Executando OmniCoder-9B localmente com detalhes de configuração do llama.cpp