Qwen3.6 27B FP8 ejecuta 200k tokens BF16 KV Cache a 80 TPS en RTX 5000 PRO 48GB

Un usuario de Reddit en r/LocalLLaMA informa que ejecuta Qwen3.6-27B-FP8 con una caché KV BF16 de 200k tokens a 60–90 TPS en una sola GPU RTX 5000 PRO 48GB. La configuración utiliza vLLM 0.20.1, CUDA 12.9 y la cuantización FP8 oficial de Qwen, preservando la multimodalidad y la decodificación especulativa MTP.
Detalles de la configuración
El entorno usa FlashInfer FP8 MoE, FP8 Marlin y planificación asíncrona. Variables de entorno clave y comando de inicio:
export VLLM_USE_FLASHINFER_MOE_FP8=1
export VLLM_TEST_FORCE_FP8_MARLIN=1
export VLLM_SLEEP_WHEN_IDLE=1
export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1
export VLLM_LOG_STATS_INTERVAL=2
export VLLM_WORKER_MULTIPROC_METHOD=spawn
export SAFETENSORS_FAST_GPU=1
export CUDA_DEVICE_ORDER=PCI_BUS_ID
export TORCH_FLOAT32_MATMUL_PRECISION=high
export PYTORCH_ALLOC_CONF=expandable_segments:True
vllm serve Qwen/Qwen3.6-27B-FP8
--host 0.0.0.0 --port 8080
--performance-mode interactivity
--trust-remote-code
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--reasoning-parser qwen3
--mm-encoder-tp-mode data
--mm-processor-cache-type shm
--gpu-memory-utilization 0.975
--speculative-config '{"method":"mtp","num_speculative_tokens":2}'
--compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}'
--async-scheduling
--attention-backend flashinfer
--max-model-len 196608
--kv-cache-dtype bfloat16
--enable-prefix-caching
Observaciones de rendimiento
Con decodificación especulativa MTP=2, el sistema produce 60–90 TPS durante la generación de código. La caché KV BF16 evita problemas de compactación vistos en KV cuantizados, haciendo que las sesiones largas de codificación sean más fiables. El usuario señala que la configuración se ejecuta en una sola RTX 5000 PRO 48GB con 64GB de RAM del sistema y una CPU decente, calificándola como un fuerte candidato para una estación de trabajo de $10k para desarrollo local de LLM.
Para quién es
Desarrolladores que necesitan una configuración local de codificación agéntica con baja compresión, artefactos de cuantización mínimos y ventanas de contexto largas.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Análisis de las afirmaciones de Jensen Huang sobre OpenClaw en GTC 2026 y la estrategia de Nvidia.
Una verificación de los reclamos del CEO de Nvidia, Jensen Huang, en su discurso de apertura del GTC 2026 sobre el crecimiento de OpenClaw, los riesgos de seguridad de los agentes y las soluciones propietarias de Nvidia. La fuente verifica los reclamos técnicos mientras analiza el posicionamiento comercial de Nvidia.

Anthropic limita OpenClaw con nuevo sistema de crédito: Detalles e impacto
Anthropic vuelve a limitar OpenClaw: a partir del 15 de junio de 2026, todo el uso programático pasa a un grupo de créditos separado con topes mensuales, sin acumulación, y facturación por exceso a tarifas de API.

Discusión en Reddit sobre el Impacto de Claude en el Desarrollo de MVP y los Errores Comunes de los Fundadores
Un usuario de Reddit analiza cómo Claude AI reduce las barreras técnicas para construir MVPs de $3k-$5k a un enfoque DIY, pero advierte sobre el aumento de la competencia y que los fundadores se centran demasiado en construir versus el marketing, el PMF y las operaciones.

Claude Code v2.1.128: Aislamiento OTEL, correcciones MCP, soporte para archivos .zip de complementos y más de 20 correcciones de errores
Claude Code v2.1.128 evita que los subprocesos hereden las variables de entorno OTEL_*, agrega compatibilidad con plugins .zip, corrige la inundación de reconexiones de MCP y soluciona la cancelación de herramientas de shell paralelas.