DeepSeek-V4-Flash W4A16+FP8과 MTP 자기추측: 2x RTX PRO 6000 Max-Q에서 85 tok/s

✍️ OpenClawRadar📅 게시일: May 10, 2026🔗 Source
DeepSeek-V4-Flash W4A16+FP8과 MTP 자기추측: 2x RTX PRO 6000 Max-Q에서 85 tok/s
Ad

DeepSeek-V4-Flash가 2× RTX PRO 6000 Max-Q(각 96GB, NVLink 없음)에서 524k 컨텍스트에서 85.52 tok/s, 128k 단일 스트림에서 약 111 tok/s로 실행됩니다. 이 양자화는 pasta-paul의 W4A16-FP8 베이스를 사용하지만, MTP 헤드가 개조되었습니다(원래 양자화는 로드 시 MTP를 자동으로 제거합니다). 주요 세부 사항은 아래와 같습니다.

벤치마크

  • pasta-paul 베이스, MTP 없음, 524k: 52.85 tok/s, 91 ms TTFT (참조)
  • 이 모델, 524k 2-스트림: 85.52 tok/s, 155 ms TTFT (+62%)
  • 이 모델, 128k 단일 스트림: ~111 tok/s, ~310 ms TTFT (+110%)
  • 기본 벤치마크 (소규모 샘플): GSM8K 93%, MMLU 53%, HumanEval (구문) 90%

양자화 세부 사항

  • 768 라우팅된 전문가 텐서 (256 전문가 × {w1, w2, w3}): W4A16 INT4 group=128 sym, GPTQ (Cholesky H⁻¹을 사용한 Frantar). 256개의 ultrachat_200k 프롬프트 × 256 max_tokens로 보정 – 17,701 MTP 전방 덤프, 473k 토큰.
  • 5개의 어텐션 프로젝션: FP8_BLOCK (업스트림 FP8 가중치, 압축 텐서 호환성을 위해 scale → weight_scale로 이름 변경).
  • 공유 전문가, e_proj, h_proj, norms, gate, attn_sink: BF16 / FP32.

Max-Q 특정 수정 사항

Max-Q 워크스테이션 카드(NVLink 없음)에서 --disable-custom-all-reduce를 전달하세요. vLLM의 CustomAllreduce는 CUDA P2P를 사용하며 PCIe 전용 토폴로지에서 교착 상태에 빠집니다. TTFT를 낮추기 위한 NCCL 튜닝(~91 ms 대 ~155 ms):

NCCL_PROTO=LL NCCL_ALGO=Ring NCCL_MIN_NCHANNELS=8 NCCL_NTHREADS=512
Ad

실행 방법

MTP 패치가 포함된 pasta-paul의 워크스페이스의 패치된 vLLM 포크가 필요합니다. 예시 명령어:

vllm serve LordNeel/DeepSeek-V4-Flash-Acti-MTP-W4A16-FP8 \
--tensor-parallel-size 2 --kv-cache-dtype fp8 --block-size 256 \
--max-model-len 524288 --max-num-seqs 2 \
--gpu-memory-utilization 0.93 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 --enable-auto-tool-choice \
--reasoning-parser deepseek_v4 \
--trust-remote-code \
--disable-custom-all-reduce \
--speculative-config '{"method":"mtp","num_speculative_tokens":1}' \
--host 0.0.0.0 --port 8000

모델에는 AI 코딩 에이전트(Claude/Codex/Cursor)를 통해 설정하기 위한 AGENTS.md 런북도 포함되어 있습니다.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

OpenClaw를 원활한 에이전트 간 통신을 위해 구성하기
Guides

OpenClaw를 원활한 에이전트 간 통신을 위해 구성하기

레딧 사용자가 OpenClaw의 에이전트 간 통신에서 타임아웃을 줄이는 특정 구성 설정을 공유했습니다. 여기에는 도구 가시성 설정, 메모리 지시사항, 그리고 ANNOUNCE_SKIP 제한을 우회하는 방법이 포함됩니다.

OpenClawRadar
OpenClaw에서 Gemini CLI write_file을 찾을 수 없음 문제 해결: 두 가지 수정 필요
Guides

OpenClaw에서 Gemini CLI write_file을 찾을 수 없음 문제 해결: 두 가지 수정 필요

OpenClaw 에이전트가 google-gemini-cli를 사용할 때 잘못된 tools.profile과 서브프로세스의 --approval-mode auto_edit 플래그 누락으로 인해 파일을 쓸 수 없습니다(write_file / default_api_write_file 없음). 해결 방법: 프로필을 full로 설정하고 cliBackends 설정을 통해 플래그를 주입합니다.

OpenClawRadar
RAG 챗봇 평가: 모델 스윕 + 검색 수정으로 비용 79% 절감 및 품질 19% 향상
Guides

RAG 챗봇 평가: 모델 스윕 + 검색 수정으로 비용 79% 절감 및 품질 19% 향상

한 개발자가 고객 지원 RAG 봇을 평가한 결과, 검색 설정 오류, 휴리스틱 평가자의 결함, 그리고 프로덕션 모델보다 성능이 뛰어난 더 저렴한 모델을 발견했습니다. 품질은 6.62에서 7.88로 향상되었고, 세션당 비용은 $0.002420에서 $0.000509로 감소했습니다.

OpenClawRadar
OpenClaw + Ollama 로컬 모델 타임아웃 디버깅: 침묵하는 실패를 해결하는 다섯 가지 방법
Guides

OpenClaw + Ollama 로컬 모델 타임아웃 디버깅: 침묵하는 실패를 해결하는 다섯 가지 방법

개발자가 OpenClaw 에이전트가 Gemma 4 26B와 같은 로컬 Ollama 모델에서 자동 타임아웃되는 5가지 근본 원인을 파악했습니다. 여기에는 블로킹 슬러그 생성기, 38K 문자 시스템 프롬프트, 숨겨진 타임아웃 등이 포함됩니다. 해결 방법은 훅 비활성화, 설정 수정, Ollama 설정 조정을 포함합니다.

OpenClawRadar