Qwen3.6 27B FP8: 200k tokens a 80 TPS en RTX 5000 PRO

Un usuario de Reddit en r/LocalLLaMA informa que ejecuta Qwen3.6-27B-FP8 con una caché KV BF16 de 200k tokens a 60–90 TPS en una sola GPU RTX 5000 PRO 48GB. La configuración utiliza vLLM 0.20.1, CUDA 12.9 y la cuantización FP8 oficial de Qwen, preservando la multimodalidad y la decodificación especulativa MTP.

Detalles de la configuración

El entorno usa FlashInfer FP8 MoE, FP8 Marlin y planificación asíncrona. Variables de entorno clave y comando de inicio:

export VLLM_USE_FLASHINFER_MOE_FP8=1 export VLLM_TEST_FORCE_FP8_MARLIN=1 export VLLM_SLEEP_WHEN_IDLE=1 export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1 export VLLM_LOG_STATS_INTERVAL=2 export VLLM_WORKER_MULTIPROC_METHOD=spawn export SAFETENSORS_FAST_GPU=1 export CUDA_DEVICE_ORDER=PCI_BUS_ID export TORCH_FLOAT32_MATMUL_PRECISION=high export PYTORCH_ALLOC_CONF=expandable_segments:True

vllm serve Qwen/Qwen3.6-27B-FP8 --host 0.0.0.0 --port 8080 --performance-mode interactivity --trust-remote-code --enable-auto-tool-choice --tool-call-parser qwen3_coder --reasoning-parser qwen3 --mm-encoder-tp-mode data --mm-processor-cache-type shm --gpu-memory-utilization 0.975 --speculative-config '{"method":"mtp","num_speculative_tokens":2}' --compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}' --async-scheduling --attention-backend flashinfer --max-model-len 196608 --kv-cache-dtype bfloat16 --enable-prefix-caching

Observaciones de rendimiento

Con decodificación especulativa MTP=2, el sistema produce 60–90 TPS durante la generación de código. La caché KV BF16 evita problemas de compactación vistos en KV cuantizados, haciendo que las sesiones largas de codificación sean más fiables. El usuario señala que la configuración se ejecuta en una sola RTX 5000 PRO 48GB con 64GB de RAM del sistema y una CPU decente, calificándola como un fuerte candidato para una estación de trabajo de $10k para desarrollo local de LLM.

Para quién es

Desarrolladores que necesitan una configuración local de codificación agéntica con baja compresión, artefactos de cuantización mínimos y ventanas de contexto largas.

📖 Leer la fuente completa: r/LocalLLaMA

Qwen3.6 27B FP8 ejecuta 200k tokens BF16 KV Cache a 80 TPS en RTX 5000 PRO 48GB

Detalles de la configuración

Observaciones de rendimiento

Para quién es

👀 Ver también

Análisis de las afirmaciones de Jensen Huang sobre OpenClaw en GTC 2026 y la estrategia de Nvidia.

Anthropic limita OpenClaw con nuevo sistema de crédito: Detalles e impacto

Discusión en Reddit sobre el Impacto de Claude en el Desarrollo de MVP y los Errores Comunes de los Fundadores

Claude Code v2.1.128: Aislamiento OTEL, correcciones MCP, soporte para archivos .zip de complementos y más de 20 correcciones de errores