Qwen3.6 27B FP8 на RTX 5000 PRO: 200k токенов BF16 KV Cache, 80 TPS

Пользователь Reddit в r/LocalLLaMA сообщает о запуске Qwen3.6-27B-FP8 с BF16 KV-кэшем на 200k токенов при 60–90 TPS на одной карте RTX 5000 PRO 48GB. Настройка использует vLLM 0.20.1, CUDA 12.9 и официальный FP8 квантизатор Qwen, сохраняя мультимодальность и спекулятивное декодирование MTP.

Детали настройки

Окружение использует FlashInfer FP8 MoE, FP8 Marlin и асинхронное планирование. Ключевые переменные окружения и команда запуска:

export VLLM_USE_FLASHINFER_MOE_FP8=1 export VLLM_TEST_FORCE_FP8_MARLIN=1 export VLLM_SLEEP_WHEN_IDLE=1 export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1 export VLLM_LOG_STATS_INTERVAL=2 export VLLM_WORKER_MULTIPROC_METHOD=spawn export SAFETENSORS_FAST_GPU=1 export CUDA_DEVICE_ORDER=PCI_BUS_ID export TORCH_FLOAT32_MATMUL_PRECISION=high export PYTORCH_ALLOC_CONF=expandable_segments:True

vllm serve Qwen/Qwen3.6-27B-FP8 --host 0.0.0.0 --port 8080 --performance-mode interactivity --trust-remote-code --enable-auto-tool-choice --tool-call-parser qwen3_coder --reasoning-parser qwen3 --mm-encoder-tp-mode data --mm-processor-cache-type shm --gpu-memory-utilization 0.975 --speculative-config '{"method":"mtp","num_speculative_tokens":2}' --compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}' --async-scheduling --attention-backend flashinfer --max-model-len 196608 --kv-cache-dtype bfloat16 --enable-prefix-caching

Наблюдения за производительностью

Со спекулятивным декодированием MTP=2 система выдает 60–90 TPS при генерации кода. BF16 KV-кэш позволяет избежать проблем с уплотнением, характерных для квантизированного KV, что делает длительные сессии кодирования более надежными. Пользователь отмечает, что настройка работает на одной карте RTX 5000 PRO 48GB с 64GB системной памяти и приличном процессоре, называя ее сильным кандидатом для рабочей станции за $10k для локальной разработки LLM.

Для кого это

Для разработчиков, которым нужна локальная, малокомпрессионная агентная среда кодирования с минимальными артефактами квантизации и длинными контекстными окнами.

📖 Читать полный источник: r/LocalLLaMA

Qwen3.6 27B FP8 выполняет 200k токенов BF16 KV Cache со скоростью 80 TPS на RTX 5000 PRO 48GB

Детали настройки

Наблюдения за производительностью

Для кого это

👀 Смотрите также

Клод-Код v2.1.32: Усовершенствование автоматизации и точности кодирования

Coinbase x402 против Google A2A: Два противоположных подхода к порядку платежей между агентами

OpenClaw: Четыре критических вопроса, которые необходимо знать разработчикам

Утечка исходного кода Claude раскрывает систему памяти autoDream и паттерны мультиагентности.