Qwen3.6 27B FP8 выполняет 200k токенов BF16 KV Cache со скоростью 80 TPS на RTX 5000 PRO 48GB

✍️ OpenClawRadar📅 Опубликовано: 5 мая 2026 г.🔗 Source
Qwen3.6 27B FP8 выполняет 200k токенов BF16 KV Cache со скоростью 80 TPS на RTX 5000 PRO 48GB
Ad

Пользователь Reddit в r/LocalLLaMA сообщает о запуске Qwen3.6-27B-FP8 с BF16 KV-кэшем на 200k токенов при 60–90 TPS на одной карте RTX 5000 PRO 48GB. Настройка использует vLLM 0.20.1, CUDA 12.9 и официальный FP8 квантизатор Qwen, сохраняя мультимодальность и спекулятивное декодирование MTP.

Детали настройки

Окружение использует FlashInfer FP8 MoE, FP8 Marlin и асинхронное планирование. Ключевые переменные окружения и команда запуска:

export VLLM_USE_FLASHINFER_MOE_FP8=1
export VLLM_TEST_FORCE_FP8_MARLIN=1
export VLLM_SLEEP_WHEN_IDLE=1
export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1
export VLLM_LOG_STATS_INTERVAL=2
export VLLM_WORKER_MULTIPROC_METHOD=spawn
export SAFETENSORS_FAST_GPU=1
export CUDA_DEVICE_ORDER=PCI_BUS_ID
export TORCH_FLOAT32_MATMUL_PRECISION=high
export PYTORCH_ALLOC_CONF=expandable_segments:True

vllm serve Qwen/Qwen3.6-27B-FP8
--host 0.0.0.0 --port 8080
--performance-mode interactivity
--trust-remote-code
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--reasoning-parser qwen3
--mm-encoder-tp-mode data
--mm-processor-cache-type shm
--gpu-memory-utilization 0.975
--speculative-config '{"method":"mtp","num_speculative_tokens":2}'
--compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}'
--async-scheduling
--attention-backend flashinfer
--max-model-len 196608
--kv-cache-dtype bfloat16
--enable-prefix-caching

Ad

Наблюдения за производительностью

Со спекулятивным декодированием MTP=2 система выдает 60–90 TPS при генерации кода. BF16 KV-кэш позволяет избежать проблем с уплотнением, характерных для квантизированного KV, что делает длительные сессии кодирования более надежными. Пользователь отмечает, что настройка работает на одной карте RTX 5000 PRO 48GB с 64GB системной памяти и приличном процессоре, называя ее сильным кандидатом для рабочей станции за $10k для локальной разработки LLM.

Для кого это

Для разработчиков, которым нужна локальная, малокомпрессионная агентная среда кодирования с минимальными артефактами квантизации и длинными контекстными окнами.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Клод-Код v2.1.32: Усовершенствование автоматизации и точности кодирования
Новости

Клод-Код v2.1.32: Усовершенствование автоматизации и точности кодирования

Последний релиз Claude-Code, версия 2.1.32, приносит важные улучшения в области AI программирования и автоматизации. Узнайте ключевые функции и влияние на сообщество этого обновления, теперь доступного на GitHub.

OpenClawRadar
Coinbase x402 против Google A2A: Два противоположных подхода к порядку платежей между агентами
Новости

Coinbase x402 против Google A2A: Два противоположных подхода к порядку платежей между агентами

Создание меж-агентных платежей выявило фундаментальное различие: промежуточное ПО x402 от Coinbase выполняет расчет после работы (проверка → выполнение → расчет), а расширение A2A от Google — до работы (проверка → расчет → выполнение) для медленных агентных вызовов.

OpenClawRadar
OpenClaw: Четыре критических вопроса, которые необходимо знать разработчикам
Новости

OpenClaw: Четыре критических вопроса, которые необходимо знать разработчикам

От ошибок передачи изображений до неработающих адаптеров каналов, проблем с видимостью файлов блокировки и отсутствия параллельной координации — четыре проблемы, влияющие на продакшн, из репозитория OpenClaw (366k звезд).

OpenClawRadar
Утечка исходного кода Claude раскрывает систему памяти autoDream и паттерны мультиагентности.
Новости

Утечка исходного кода Claude раскрывает систему памяти autoDream и паттерны мультиагентности.

Anthropic случайно опубликовала исходный код TypeScript для Claude Code в source maps npm, раскрыв механизм консолидации памяти autoDream, модульную архитектуру системных промптов и паттерны координации мультиагентов.

OpenClawRadar