Qwen3.6 27B FP8 ejecuta 200k tokens BF16 KV Cache a 80 TPS en RTX 5000 PRO 48GB

Un usuario de Reddit en r/LocalLLaMA informa que ejecuta Qwen3.6-27B-FP8 con una caché KV BF16 de 200k tokens a 60–90 TPS en una sola GPU RTX 5000 PRO 48GB. La configuración utiliza vLLM 0.20.1, CUDA 12.9 y la cuantización FP8 oficial de Qwen, preservando la multimodalidad y la decodificación especulativa MTP.
Detalles de la configuración
El entorno usa FlashInfer FP8 MoE, FP8 Marlin y planificación asíncrona. Variables de entorno clave y comando de inicio:
export VLLM_USE_FLASHINFER_MOE_FP8=1
export VLLM_TEST_FORCE_FP8_MARLIN=1
export VLLM_SLEEP_WHEN_IDLE=1
export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1
export VLLM_LOG_STATS_INTERVAL=2
export VLLM_WORKER_MULTIPROC_METHOD=spawn
export SAFETENSORS_FAST_GPU=1
export CUDA_DEVICE_ORDER=PCI_BUS_ID
export TORCH_FLOAT32_MATMUL_PRECISION=high
export PYTORCH_ALLOC_CONF=expandable_segments:True
vllm serve Qwen/Qwen3.6-27B-FP8
--host 0.0.0.0 --port 8080
--performance-mode interactivity
--trust-remote-code
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--reasoning-parser qwen3
--mm-encoder-tp-mode data
--mm-processor-cache-type shm
--gpu-memory-utilization 0.975
--speculative-config '{"method":"mtp","num_speculative_tokens":2}'
--compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}'
--async-scheduling
--attention-backend flashinfer
--max-model-len 196608
--kv-cache-dtype bfloat16
--enable-prefix-caching
Observaciones de rendimiento
Con decodificación especulativa MTP=2, el sistema produce 60–90 TPS durante la generación de código. La caché KV BF16 evita problemas de compactación vistos en KV cuantizados, haciendo que las sesiones largas de codificación sean más fiables. El usuario señala que la configuración se ejecuta en una sola RTX 5000 PRO 48GB con 64GB de RAM del sistema y una CPU decente, calificándola como un fuerte candidato para una estación de trabajo de $10k para desarrollo local de LLM.
Para quién es
Desarrolladores que necesitan una configuración local de codificación agéntica con baja compresión, artefactos de cuantización mínimos y ventanas de contexto largas.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Claude Code v2.1.139 añade Vista de Agente, comando /goal y importantes mejoras en MCP
Claude Code v2.1.139 introduce una nueva vista de agente para la gestión de sesiones, un comando /goal para tareas de múltiples turnos, capacidades ampliadas de hooks, y correcciones para problemas de memoria del servidor MCP y corrupción de terminal.

DMA retrasa Siri AI en iOS 27 y iPadOS 27 en la UE — Disponible en macOS y visionOS
Apple anunció que Siri AI se retrasa en iOS 27 y iPadOS 27 en la UE debido a la DMA. macOS 27 y visionOS 27 tendrán Siri AI en la UE. La propuesta de Trusted System Agent fue rechazada.

Richard Dawkins cree que su chatbot de IA Claude es consciente: El engaño de Claude en HN
Según informes, Richard Dawkins cree que su chatbot de IA femenino (Claude) es consciente, lo que desató una discusión en HN con 57 puntos y 66 comentarios.

MCP también funciona con modelos locales: el ecosistema de servidores madura rápidamente
MCP no es exclusivo de Claude. Los modelos locales con capacidad de llamada a funciones funcionan bien. Open Web UI ahora tiene un cliente MCP básico. Los modelos de 13B+ manejan mejor las herramientas de múltiples pasos.