DeepSeek-V4-Flash W4A16+FP8: 2x RTX PRO 6000 Max-Q에서 85 tok/s

DeepSeek-V4-Flash가 2× RTX PRO 6000 Max-Q(각 96GB, NVLink 없음)에서 524k 컨텍스트에서 85.52 tok/s, 128k 단일 스트림에서 약 111 tok/s로 실행됩니다. 이 양자화는 pasta-paul의 W4A16-FP8 베이스를 사용하지만, MTP 헤드가 개조되었습니다(원래 양자화는 로드 시 MTP를 자동으로 제거합니다). 주요 세부 사항은 아래와 같습니다.

벤치마크

pasta-paul 베이스, MTP 없음, 524k: 52.85 tok/s, 91 ms TTFT (참조)
이 모델, 524k 2-스트림: 85.52 tok/s, 155 ms TTFT (+62%)
이 모델, 128k 단일 스트림: ~111 tok/s, ~310 ms TTFT (+110%)
기본 벤치마크 (소규모 샘플): GSM8K 93%, MMLU 53%, HumanEval (구문) 90%

양자화 세부 사항

768 라우팅된 전문가 텐서 (256 전문가 × {w1, w2, w3}): W4A16 INT4 group=128 sym, GPTQ (Cholesky H⁻¹을 사용한 Frantar). 256개의 ultrachat_200k 프롬프트 × 256 max_tokens로 보정 – 17,701 MTP 전방 덤프, 473k 토큰.
5개의 어텐션 프로젝션: FP8_BLOCK (업스트림 FP8 가중치, 압축 텐서 호환성을 위해 scale → weight_scale로 이름 변경).
공유 전문가, e_proj, h_proj, norms, gate, attn_sink: BF16 / FP32.

Max-Q 특정 수정 사항

Max-Q 워크스테이션 카드(NVLink 없음)에서 --disable-custom-all-reduce를 전달하세요. vLLM의 CustomAllreduce는 CUDA P2P를 사용하며 PCIe 전용 토폴로지에서 교착 상태에 빠집니다. TTFT를 낮추기 위한 NCCL 튜닝(~91 ms 대 ~155 ms):

NCCL_PROTO=LL NCCL_ALGO=Ring NCCL_MIN_NCHANNELS=8 NCCL_NTHREADS=512

실행 방법

MTP 패치가 포함된 pasta-paul의 워크스페이스의 패치된 vLLM 포크가 필요합니다. 예시 명령어:

vllm serve LordNeel/DeepSeek-V4-Flash-Acti-MTP-W4A16-FP8 \
--tensor-parallel-size 2 --kv-cache-dtype fp8 --block-size 256 \
--max-model-len 524288 --max-num-seqs 2 \
--gpu-memory-utilization 0.93 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 --enable-auto-tool-choice \
--reasoning-parser deepseek_v4 \
--trust-remote-code \
--disable-custom-all-reduce \
--speculative-config '{"method":"mtp","num_speculative_tokens":1}' \
--host 0.0.0.0 --port 8000

모델에는 AI 코딩 에이전트(Claude/Codex/Cursor)를 통해 설정하기 위한 AGENTS.md 런북도 포함되어 있습니다.

📖 전체 소스 읽기: r/LocalLLaMA