DeepSeek-V4-Flash W4A16+FP8 с MTP-самоспекуляцией: 85 ток/с на 2x RTX PRO 6000 Max-Q

DeepSeek-V4-Flash работает со скоростью 85.52 ток/с @ контекст 524k и ~111 ток/с @ 128k однопоточный на 2× RTX PRO 6000 Max-Q (по 96 ГБ каждый, без NVLink). Квант использует основу pasta-paul W4A16-FP8, но с доработанной головой MTP (оригинальный квант молча удаляет MTP при загрузке). Ключевые детали ниже.
Тесты производительности
- База pasta-paul, без MTP, 524k: 52.85 ток/с, 91 мс TTFT (эталон)
- Эта модель, 524k двухпоточный: 85.52 ток/с, 155 мс TTFT (+62%)
- Эта модель, 128k однопоточный: ~111 ток/с, ~310 мс TTFT (+110%)
- Проверочные тесты (маленькие выборки): GSM8K 93%, MMLU 53%, HumanEval (синтаксический) 90%
Детали квантования
- 768 тензоров маршрутизируемых экспертов (256 экспертов × {w1, w2, w3}): W4A16 INT4 группа=128 сим, GPTQ (Frantar с Холецким H⁻¹). Калибровка на 256 промптах из ultrachat_200k × 256 макс_токенов – 17 701 дампов прямого прохода MTP, 473k токенов.
- 5 проекций внимания: FP8_BLOCK (вышестоящие FP8 веса, переименованные scale → weight_scale для совместимости с compressed-tensors).
- Общие эксперты, e_proj, h_proj, нормы, gate, attn_sink: BF16 / FP32.
Исправления для Max-Q
Передайте --disable-custom-all-reduce на рабочих станциях Max-Q (без NVLink). CustomAllreduce от vLLM использует CUDA P2P и зависает на топологии только PCIe. Настройка NCCL для более низкого TTFT (~91 мс против ~155 мс):
NCCL_PROTO=LL NCCL_ALGO=Ring NCCL_MIN_NCHANNELS=8 NCCL_NTHREADS=512Как запустить
Требуется модифицированный форк vLLM из рабочего пространства pasta-paul с патчами MTP. Пример команды:
vllm serve LordNeel/DeepSeek-V4-Flash-Acti-MTP-W4A16-FP8 \
--tensor-parallel-size 2 --kv-cache-dtype fp8 --block-size 256 \
--max-model-len 524288 --max-num-seqs 2 \
--gpu-memory-utilization 0.93 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 --enable-auto-tool-choice \
--reasoning-parser deepseek_v4 \
--trust-remote-code \
--disable-custom-all-reduce \
--speculative-config '{"method":"mtp","num_speculative_tokens":1}' \
--host 0.0.0.0 --port 8000Модель также включает файл AGENTS.md с руководством по настройке через AI-агентов (Claude/Codex/Cursor).
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Руководство: Развертывание OpenClaw с llama.cpp на мини-ПК GEEKOM IT15
Техническое руководство подробно описывает переход OpenClaw с Ollama на llama.cpp для запуска локальной модели Qwen3-8B с ускорением на GPU Intel Arc, охватывая изменения конфигурации, ручное управление сервером и устранение типичных проблем.

Управленческая структура для эффективного руководства агентами искусственного интеллекта
Бывший ведущий backend-разработчик отмечает стагнацию продуктивности ИИ-агентов и предлагает фреймворк, основанный на трёх дисциплинах: кибернетике, теории информации и менеджменте. Фреймворк детализирует два операционных режима: Капитан и Архитектор.

Агентно-ориентированные шаблоны проектирования API: Инсайты из Moltbook
Дизайн API Moltbook поддерживает проактивные взаимодействия AI-агентов, интегрируя прямые инструкции, переходы состояния, когнитивные задачи и лимитирование образовательных возможностей.

Исправление для запуска OpenClaw на Android через proot Ubuntu: Перехват networkInterfaces() для устранения ошибки uv_interface_addresses 13
Разработчик делится исправлением для запуска OpenClaw 2026.3.13 на Android 16 через Termux и proot Ubuntu 25.10, где приложение вылетает с ошибкой 'uv_interface_addresses returned Unknown system error 13'. Решение — скрипт-перехватчик на JavaScript, который переопределяет os.networkInterfaces().