DeepSeek-V4-Flash W4A16+FP8: 85 ток/с на 2x RTX PRO 6000

DeepSeek-V4-Flash работает со скоростью 85.52 ток/с @ контекст 524k и ~111 ток/с @ 128k однопоточный на 2× RTX PRO 6000 Max-Q (по 96 ГБ каждый, без NVLink). Квант использует основу pasta-paul W4A16-FP8, но с доработанной головой MTP (оригинальный квант молча удаляет MTP при загрузке). Ключевые детали ниже.

Тесты производительности

База pasta-paul, без MTP, 524k: 52.85 ток/с, 91 мс TTFT (эталон)
Эта модель, 524k двухпоточный: 85.52 ток/с, 155 мс TTFT (+62%)
Эта модель, 128k однопоточный: ~111 ток/с, ~310 мс TTFT (+110%)
Проверочные тесты (маленькие выборки): GSM8K 93%, MMLU 53%, HumanEval (синтаксический) 90%

Детали квантования

768 тензоров маршрутизируемых экспертов (256 экспертов × {w1, w2, w3}): W4A16 INT4 группа=128 сим, GPTQ (Frantar с Холецким H⁻¹). Калибровка на 256 промптах из ultrachat_200k × 256 макс_токенов – 17 701 дампов прямого прохода MTP, 473k токенов.
5 проекций внимания: FP8_BLOCK (вышестоящие FP8 веса, переименованные scale → weight_scale для совместимости с compressed-tensors).
Общие эксперты, e_proj, h_proj, нормы, gate, attn_sink: BF16 / FP32.

Исправления для Max-Q

Передайте --disable-custom-all-reduce на рабочих станциях Max-Q (без NVLink). CustomAllreduce от vLLM использует CUDA P2P и зависает на топологии только PCIe. Настройка NCCL для более низкого TTFT (~91 мс против ~155 мс):

NCCL_PROTO=LL NCCL_ALGO=Ring NCCL_MIN_NCHANNELS=8 NCCL_NTHREADS=512

Как запустить

Требуется модифицированный форк vLLM из рабочего пространства pasta-paul с патчами MTP. Пример команды:

vllm serve LordNeel/DeepSeek-V4-Flash-Acti-MTP-W4A16-FP8 \
--tensor-parallel-size 2 --kv-cache-dtype fp8 --block-size 256 \
--max-model-len 524288 --max-num-seqs 2 \
--gpu-memory-utilization 0.93 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 --enable-auto-tool-choice \
--reasoning-parser deepseek_v4 \
--trust-remote-code \
--disable-custom-all-reduce \
--speculative-config '{"method":"mtp","num_speculative_tokens":1}' \
--host 0.0.0.0 --port 8000

Модель также включает файл AGENTS.md с руководством по настройке через AI-агентов (Claude/Codex/Cursor).

📖 Read the full source: r/LocalLLaMA

DeepSeek-V4-Flash W4A16+FP8 с MTP-самоспекуляцией: 85 ток/с на 2x RTX PRO 6000 Max-Q

Тесты производительности

Детали квантования

Исправления для Max-Q

Как запустить

👀 Смотрите также

Исправление для запуска OpenClaw на Android через proot Ubuntu: Перехват networkInterfaces() для устранения ошибки uv_interface_addresses 13

Проблема голоса ИИ: Как избежать шаблонов в текстах, созданных искусственным интеллектом

Обходной путь в iOS Shortcuts для отправки фотографий с iPhone в Cowork через синхронизацию iCloud

Масштабирование агентного кодирования до 150+ PR в неделю: уроки от $85K токенов в Lovable