DeepSeek-V4-Flash W4A16+FP8とMTP自己推測:2x RTX PRO 6000 Max-Qで毎秒85トークン

DeepSeek-V4-Flashが、2× RTX PRO 6000 Max-Q(各96 GB、NVLinkなし)で、524kコンテキスト時に85.52 tok/s、128kシングルストリーム時に約111 tok/sで動作。この量子化はpasta-paulのW4A16-FP8ベースを使用していますが、MTPヘッドを後付けしています(元の量子化では読み込み時にMTPが自動的に除去されます)。主な詳細は以下です。
ベンチマーク
- pasta-paulベース、MTPなし、524k: 52.85 tok/s、91 ms TTFT(参考)
- 本モデル、524k 2ストリーム: 85.52 tok/s、155 ms TTFT(+62%)
- 本モデル、128kシングルストリーム: 約111 tok/s、約310 ms TTFT(+110%)
- 健全性ベンチマーク(小サンプル): GSM8K 93%、MMLU 53%、HumanEval(構文)90%
量子化の詳細
- 768のルーテッドエキスパートテンソル(256エキスパート×{w1, w2, w3}): W4A16 INT4グループ=128 sym、GPTQ(コレスキーH⁻¹を使用したFrantar)。256個のultrachat_200kプロンプト×256 max_tokensでキャリブレーション – 17,701 MTPフォワードダンプ、473kトークン。
- 5つのアテンションプロジェクション: FP8_BLOCK(上流のFP8重み、圧縮テンソル互換性のためにweight_scaleに名前変更)
- 共有エキスパート、e_proj、h_proj、ノルム、ゲート、attn_sink: BF16 / FP32
Max-Q固有の修正
Max-Qワークステーションカード(NVLinkなし)では--disable-custom-all-reduceを渡してください。vLLMのCustomAllreduceはCUDA P2Pを使用し、PCIeのみのトポロジでデッドロックします。より低いTTFT(約91 ms対約155 ms)のためのNCCLチューニング:
NCCL_PROTO=LL NCCL_ALGO=Ring NCCL_MIN_NCHANNELS=8 NCCL_NTHREADS=512実行方法
MTPパッチが適用されたpasta-paulのワークスペースのvLLMフォークが必要です。コマンド例:
vllm serve LordNeel/DeepSeek-V4-Flash-Acti-MTP-W4A16-FP8 \
--tensor-parallel-size 2 --kv-cache-dtype fp8 --block-size 256 \
--max-model-len 524288 --max-num-seqs 2 \
--gpu-memory-utilization 0.93 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 --enable-auto-tool-choice \
--reasoning-parser deepseek_v4 \
--trust-remote-code \
--disable-custom-all-reduce \
--speculative-config '{"method":"mtp","num_speculative_tokens":1}' \
--host 0.0.0.0 --port 8000このモデルには、AIコーディングエージェント(Claude/Codex/Cursor)でセットアップするためのAGENTS.mdランブックも含まれています。
📖 全文を読む: r/LocalLLaMA
👀 See Also

フローマップ:高速サンプリングのための拡散モデルの積分学習
サンダー・ディールマンがフローマップについて解説。拡散モデルのODEの積分を直接予測するニューラルネットワークにより、高速サンプリング、報酬ベース学習、制御可能性を実現する。

OpenClaw CLI パフォーマンストリアージチェックリスト
Redditユーザーが、遅いOpenClaw CLIコマンドを診断するための6段階チェックリストを共有しています。これには、遅延の測定、システムリソースの監視、ゲートウェイログの確認、設定問題の切り分けなどのコマンドが含まれています。

ClaudeのHaiku、Sonnet、Opusモデルを選択するための実践的フレームワーク
開発者がClaudeの3つのモデルを400行のExpress.jsリファクタリングタスクでテストし、重要な違いは知能ではなく推論の深さにあることを発見しました。Haiku 4.5は単純な部分を処理できましたが、ミドルウェアの順序付けを見落とし、Sonnet 4.6は順序付けの問題を捕捉してTypeScriptの型を追加し、Opus 4.6は認証ミドルウェアのセキュリティ上の欠陥を特定しました。

ソロ開発者のための大規模プロジェクト向け二段階プロンプト手法:Claude AI活用
一人の開発者が、Claude Chatをアーキテクト、Claude Codeをビルダーとして使用するワークフローを共有しています。これには、障害モード分析と検証ゲートを含む2段階のプロンプト手法が採用されています。