DeepSeek-V4-Flash W4A16+FP8 com MTP Autospeculação: 85 tok/s em 2x RTX PRO 6000 Max-Q

DeepSeek-V4-Flash rodando a 85.52 tok/s @ 524k de contexto e ~111 tok/s @ 128k single-stream em 2× RTX PRO 6000 Max-Q (96 GB cada, sem NVLink). A quantização usa a base W4A16-FP8 do pasta-paul, mas com uma cabeça MTP adaptada (a quantização original remove silenciosamente o MTP no carregamento). Detalhes abaixo.
Benchmarks
- pasta-paul base, sem MTP, 524k: 52.85 tok/s, 91 ms TTFT (referência)
- Este modelo, 524k 2-stream: 85.52 tok/s, 155 ms TTFT (+62%)
- Este modelo, 128k single-stream: ~111 tok/s, ~310 ms TTFT (+110%)
- Benchmarks de sanidade (amostras pequenas): GSM8K 93%, MMLU 53%, HumanEval (sintático) 90%
Detalhes da Quantização
- 768 tensores de especialistas roteados (256 especialistas × {w1, w2, w3}): W4A16 INT4 grupo=128 sym, GPTQ (Frantar com Cholesky H⁻¹). Calibrado com 256 prompts ultrachat_200k × 256 max_tokens – 17.701 dumps forward MTP, 473k tokens.
- 5 projeções de atenção: FP8_BLOCK (pesos FP8 upstream, renomeados scale → weight_scale para compatibilidade com compressed-tensors).
- Especialistas compartilhados, e_proj, h_proj, normas, gate, attn_sink: BF16 / FP32.
Correções Específicas para Max-Q
Passe --disable-custom-all-reduce em placas workstation Max-Q (sem NVLink). O CustomAllreduce do vLLM usa CUDA P2P e trava em topologia PCIe-only. Ajuste NCCL para TTFT mais baixo (~91 ms vs ~155 ms):
NCCL_PROTO=LL NCCL_ALGO=Ring NCCL_MIN_NCHANNELS=8 NCCL_NTHREADS=512Como Executar
Requer o fork do vLLM modificado do workspace do pasta-paul com patches MTP. Exemplo de comando:
vllm serve LordNeel/DeepSeek-V4-Flash-Acti-MTP-W4A16-FP8 \
--tensor-parallel-size 2 --kv-cache-dtype fp8 --block-size 256 \
--max-model-len 524288 --max-num-seqs 2 \
--gpu-memory-utilization 0.93 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 --enable-auto-tool-choice \
--reasoning-parser deepseek_v4 \
--trust-remote-code \
--disable-custom-all-reduce \
--speculative-config '{"method":"mtp","num_speculative_tokens":1}' \
--host 0.0.0.0 --port 8000O modelo também inclui um runbook AGENTS.md para configuração via agentes de codificação de IA (Claude/Codex/Cursor).
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

6 padrões que fazem os arquivos de habilidade do Claude Code realmente ativarem
Após testar mais de 2.300 arquivos de skill, um desenvolvedor identificou 6 padrões que determinam se uma skill do Claude Code é carregada quando necessário – incluindo linguagem de acionamento específica, uma capacidade por arquivo e listas de quando não usar.

Estratégias Práticas de Codificação em IA a partir de 1000 Horas de Experiência
Uma postagem do Reddit descreve níveis específicos de prompts e estratégias de fluxo de trabalho para usar agentes de IA de codificação de forma eficaz, incluindo tratar a IA como um desenvolvedor júnior, implementação em fases e uso de arquivos de instrução.

Como Otimizar Sua Configuração do OpenClaw com Instruções Específicas e Refinamentos
A otimização do OpenClaw depende de instruções precisas e do refinamento contínuo das personalidades dos agentes, além da utilização eficiente de modelos em termos de custo.

Configuração de Instância Canary para Atualizações Seguras do OpenClaw
Um usuário do Reddit compartilha uma metodologia detalhada de canário para testar atualizações do OpenClaw antes da produção: raiz de configuração isolada, porta separada, matriz de teste de fumaça e um formato de relatório de atualização estruturado.