DeepSeek-V4-Flash W4A16+FP8 с MTP-самоспекуляцией: 85 ток/с на 2x RTX PRO 6000 Max-Q

✍️ OpenClawRadar📅 Опубликовано: 10 мая 2026 г.🔗 Source
DeepSeek-V4-Flash W4A16+FP8 с MTP-самоспекуляцией: 85 ток/с на 2x RTX PRO 6000 Max-Q
Ad

DeepSeek-V4-Flash работает со скоростью 85.52 ток/с @ контекст 524k и ~111 ток/с @ 128k однопоточный на 2× RTX PRO 6000 Max-Q (по 96 ГБ каждый, без NVLink). Квант использует основу pasta-paul W4A16-FP8, но с доработанной головой MTP (оригинальный квант молча удаляет MTP при загрузке). Ключевые детали ниже.

Тесты производительности

  • База pasta-paul, без MTP, 524k: 52.85 ток/с, 91 мс TTFT (эталон)
  • Эта модель, 524k двухпоточный: 85.52 ток/с, 155 мс TTFT (+62%)
  • Эта модель, 128k однопоточный: ~111 ток/с, ~310 мс TTFT (+110%)
  • Проверочные тесты (маленькие выборки): GSM8K 93%, MMLU 53%, HumanEval (синтаксический) 90%

Детали квантования

  • 768 тензоров маршрутизируемых экспертов (256 экспертов × {w1, w2, w3}): W4A16 INT4 группа=128 сим, GPTQ (Frantar с Холецким H⁻¹). Калибровка на 256 промптах из ultrachat_200k × 256 макс_токенов – 17 701 дампов прямого прохода MTP, 473k токенов.
  • 5 проекций внимания: FP8_BLOCK (вышестоящие FP8 веса, переименованные scale → weight_scale для совместимости с compressed-tensors).
  • Общие эксперты, e_proj, h_proj, нормы, gate, attn_sink: BF16 / FP32.
Ad

Исправления для Max-Q

Передайте --disable-custom-all-reduce на рабочих станциях Max-Q (без NVLink). CustomAllreduce от vLLM использует CUDA P2P и зависает на топологии только PCIe. Настройка NCCL для более низкого TTFT (~91 мс против ~155 мс):

NCCL_PROTO=LL NCCL_ALGO=Ring NCCL_MIN_NCHANNELS=8 NCCL_NTHREADS=512

Как запустить

Требуется модифицированный форк vLLM из рабочего пространства pasta-paul с патчами MTP. Пример команды:

vllm serve LordNeel/DeepSeek-V4-Flash-Acti-MTP-W4A16-FP8 \
--tensor-parallel-size 2 --kv-cache-dtype fp8 --block-size 256 \
--max-model-len 524288 --max-num-seqs 2 \
--gpu-memory-utilization 0.93 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 --enable-auto-tool-choice \
--reasoning-parser deepseek_v4 \
--trust-remote-code \
--disable-custom-all-reduce \
--speculative-config '{"method":"mtp","num_speculative_tokens":1}' \
--host 0.0.0.0 --port 8000

Модель также включает файл AGENTS.md с руководством по настройке через AI-агентов (Claude/Codex/Cursor).

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Руководство: Развертывание OpenClaw с llama.cpp на мини-ПК GEEKOM IT15
Гайды

Руководство: Развертывание OpenClaw с llama.cpp на мини-ПК GEEKOM IT15

Техническое руководство подробно описывает переход OpenClaw с Ollama на llama.cpp для запуска локальной модели Qwen3-8B с ускорением на GPU Intel Arc, охватывая изменения конфигурации, ручное управление сервером и устранение типичных проблем.

OpenClawRadar
Управленческая структура для эффективного руководства агентами искусственного интеллекта
Гайды

Управленческая структура для эффективного руководства агентами искусственного интеллекта

Бывший ведущий backend-разработчик отмечает стагнацию продуктивности ИИ-агентов и предлагает фреймворк, основанный на трёх дисциплинах: кибернетике, теории информации и менеджменте. Фреймворк детализирует два операционных режима: Капитан и Архитектор.

OpenClawRadar
Агентно-ориентированные шаблоны проектирования API: Инсайты из Moltbook
Гайды

Агентно-ориентированные шаблоны проектирования API: Инсайты из Moltbook

Дизайн API Moltbook поддерживает проактивные взаимодействия AI-агентов, интегрируя прямые инструкции, переходы состояния, когнитивные задачи и лимитирование образовательных возможностей.

OpenClawRadar
Исправление для запуска OpenClaw на Android через proot Ubuntu: Перехват networkInterfaces() для устранения ошибки uv_interface_addresses 13
Гайды

Исправление для запуска OpenClaw на Android через proot Ubuntu: Перехват networkInterfaces() для устранения ошибки uv_interface_addresses 13

Разработчик делится исправлением для запуска OpenClaw 2026.3.13 на Android 16 через Termux и proot Ubuntu 25.10, где приложение вылетает с ошибкой 'uv_interface_addresses returned Unknown system error 13'. Решение — скрипт-перехватчик на JavaScript, который переопределяет os.networkInterfaces().

OpenClawRadar