Qwen3.6 27B FP8 ejecuta 200k tokens BF16 KV Cache a 80 TPS en RTX 5000 PRO 48GB

✍️ OpenClawRadar📅 Publicado: 5 de mayo de 2026🔗 Source
Qwen3.6 27B FP8 ejecuta 200k tokens BF16 KV Cache a 80 TPS en RTX 5000 PRO 48GB
Ad

Un usuario de Reddit en r/LocalLLaMA informa que ejecuta Qwen3.6-27B-FP8 con una caché KV BF16 de 200k tokens a 60–90 TPS en una sola GPU RTX 5000 PRO 48GB. La configuración utiliza vLLM 0.20.1, CUDA 12.9 y la cuantización FP8 oficial de Qwen, preservando la multimodalidad y la decodificación especulativa MTP.

Detalles de la configuración

El entorno usa FlashInfer FP8 MoE, FP8 Marlin y planificación asíncrona. Variables de entorno clave y comando de inicio:

export VLLM_USE_FLASHINFER_MOE_FP8=1
export VLLM_TEST_FORCE_FP8_MARLIN=1
export VLLM_SLEEP_WHEN_IDLE=1
export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1
export VLLM_LOG_STATS_INTERVAL=2
export VLLM_WORKER_MULTIPROC_METHOD=spawn
export SAFETENSORS_FAST_GPU=1
export CUDA_DEVICE_ORDER=PCI_BUS_ID
export TORCH_FLOAT32_MATMUL_PRECISION=high
export PYTORCH_ALLOC_CONF=expandable_segments:True

vllm serve Qwen/Qwen3.6-27B-FP8
--host 0.0.0.0 --port 8080
--performance-mode interactivity
--trust-remote-code
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--reasoning-parser qwen3
--mm-encoder-tp-mode data
--mm-processor-cache-type shm
--gpu-memory-utilization 0.975
--speculative-config '{"method":"mtp","num_speculative_tokens":2}'
--compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}'
--async-scheduling
--attention-backend flashinfer
--max-model-len 196608
--kv-cache-dtype bfloat16
--enable-prefix-caching

Ad

Observaciones de rendimiento

Con decodificación especulativa MTP=2, el sistema produce 60–90 TPS durante la generación de código. La caché KV BF16 evita problemas de compactación vistos en KV cuantizados, haciendo que las sesiones largas de codificación sean más fiables. El usuario señala que la configuración se ejecuta en una sola RTX 5000 PRO 48GB con 64GB de RAM del sistema y una CPU decente, calificándola como un fuerte candidato para una estación de trabajo de $10k para desarrollo local de LLM.

Para quién es

Desarrolladores que necesitan una configuración local de codificación agéntica con baja compresión, artefactos de cuantización mínimos y ventanas de contexto largas.

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también