Qwen3.6 27B FP8 RTX 5000 PRO 48GB 200K 토큰 80 TPS 설정 방법

r/LocalLLaMA의 Reddit 사용자가 단일 RTX 5000 PRO 48GB GPU에서 Qwen3.6-27B-FP8을 BF16 KV 캐시(200k 토큰)로 실행하여 60–90 TPS를 달성했다고 보고했습니다. 이 설정은 vLLM 0.20.1, CUDA 12.9, Qwen의 공식 FP8 양자화를 사용하며, 멀티모달 및 MTP 추측 디코딩을 지원합니다.

설정 세부 사항

환경은 FlashInfer FP8 MoE, FP8 Marlin 및 비동기 스케줄링을 사용합니다. 주요 환경 변수 및 실행 명령:

export VLLM_USE_FLASHINFER_MOE_FP8=1 export VLLM_TEST_FORCE_FP8_MARLIN=1 export VLLM_SLEEP_WHEN_IDLE=1 export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1 export VLLM_LOG_STATS_INTERVAL=2 export VLLM_WORKER_MULTIPROC_METHOD=spawn export SAFETENSORS_FAST_GPU=1 export CUDA_DEVICE_ORDER=PCI_BUS_ID export TORCH_FLOAT32_MATMUL_PRECISION=high export PYTORCH_ALLOC_CONF=expandable_segments:True

vllm serve Qwen/Qwen3.6-27B-FP8 --host 0.0.0.0 --port 8080 --performance-mode interactivity --trust-remote-code --enable-auto-tool-choice --tool-call-parser qwen3_coder --reasoning-parser qwen3 --mm-encoder-tp-mode data --mm-processor-cache-type shm --gpu-memory-utilization 0.975 --speculative-config '{"method":"mtp","num_speculative_tokens":2}' --compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}' --async-scheduling --attention-backend flashinfer --max-model-len 196608 --kv-cache-dtype bfloat16 --enable-prefix-caching

성능 관찰

MTP=2 추측 디코딩을 통해 코드 생성 시 60–90 TPS를 생성합니다. BF16 KV 캐시는 양자화된 KV에서 발생하는 압축 문제를 피하여 긴 코딩 세션을 더 안정적으로 만듭니다. 사용자는 이 설정이 64GB 시스템 RAM과 적절한 CPU를 갖춘 단일 RTX 5000 PRO 48GB에서 실행되며, 로컬 LLM 개발을 위한 $10,000 워크스테이션의 강력한 후보라고 언급합니다.