DeepSeek-V4-Flash W4A16+FP8量子化：85.52 tok/s達成

DeepSeek-V4-Flashが、2× RTX PRO 6000 Max-Q（各96 GB、NVLinkなし）で、524kコンテキスト時に85.52 tok/s、128kシングルストリーム時に約111 tok/sで動作。この量子化はpasta-paulのW4A16-FP8ベースを使用していますが、MTPヘッドを後付けしています（元の量子化では読み込み時にMTPが自動的に除去されます）。主な詳細は以下です。

ベンチマーク

pasta-paulベース、MTPなし、524k: 52.85 tok/s、91 ms TTFT（参考）
本モデル、524k 2ストリーム: 85.52 tok/s、155 ms TTFT（+62%）
本モデル、128kシングルストリーム: 約111 tok/s、約310 ms TTFT（+110%）
健全性ベンチマーク（小サンプル）: GSM8K 93%、MMLU 53%、HumanEval（構文）90%

量子化の詳細

768のルーテッドエキスパートテンソル（256エキスパート×{w1, w2, w3}）: W4A16 INT4グループ=128 sym、GPTQ（コレスキーH⁻¹を使用したFrantar）。256個のultrachat_200kプロンプト×256 max_tokensでキャリブレーション – 17,701 MTPフォワードダンプ、473kトークン。
5つのアテンションプロジェクション: FP8_BLOCK（上流のFP8重み、圧縮テンソル互換性のためにweight_scaleに名前変更）
共有エキスパート、e_proj、h_proj、ノルム、ゲート、attn_sink: BF16 / FP32

Max-Q固有の修正

Max-Qワークステーションカード（NVLinkなし）では--disable-custom-all-reduceを渡してください。vLLMのCustomAllreduceはCUDA P2Pを使用し、PCIeのみのトポロジでデッドロックします。より低いTTFT（約91 ms対約155 ms）のためのNCCLチューニング:

NCCL_PROTO=LL NCCL_ALGO=Ring NCCL_MIN_NCHANNELS=8 NCCL_NTHREADS=512

実行方法

MTPパッチが適用されたpasta-paulのワークスペースのvLLMフォークが必要です。コマンド例:

vllm serve LordNeel/DeepSeek-V4-Flash-Acti-MTP-W4A16-FP8 \
--tensor-parallel-size 2 --kv-cache-dtype fp8 --block-size 256 \
--max-model-len 524288 --max-num-seqs 2 \
--gpu-memory-utilization 0.93 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 --enable-auto-tool-choice \
--reasoning-parser deepseek_v4 \
--trust-remote-code \
--disable-custom-all-reduce \
--speculative-config '{"method":"mtp","num_speculative_tokens":1}' \
--host 0.0.0.0 --port 8000

このモデルには、AIコーディングエージェント（Claude/Codex/Cursor）でセットアップするためのAGENTS.mdランブックも含まれています。

📖 全文を読む: r/LocalLLaMA