Qwen3.6 27B FP8: 80 TPS実現するRTX 5000 PRO 48GBセットアップ

r/LocalLLaMAのRedditユーザーが、1枚のRTX 5000 PRO 48GB GPU上でQwen3.6-27B-FP8をBF16 KVキャッシュ200kトークンで実行し、60～90 TPSを達成したと報告。このセットアップはvLLM 0.20.1、CUDA 12.9、Qwen公式のFP8量子化を使用し、マルチモダリティとMTP投機的復号を維持しています。

セットアップの詳細

環境はFlashInfer FP8 MoE、FP8 Marlin、非同期スケジューリングを採用。主要な環境変数と起動コマンド：

export VLLM_USE_FLASHINFER_MOE_FP8=1 export VLLM_TEST_FORCE_FP8_MARLIN=1 export VLLM_SLEEP_WHEN_IDLE=1 export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1 export VLLM_LOG_STATS_INTERVAL=2 export VLLM_WORKER_MULTIPROC_METHOD=spawn export SAFETENSORS_FAST_GPU=1 export CUDA_DEVICE_ORDER=PCI_BUS_ID export TORCH_FLOAT32_MATMUL_PRECISION=high export PYTORCH_ALLOC_CONF=expandable_segments:True

vllm serve Qwen/Qwen3.6-27B-FP8 --host 0.0.0.0 --port 8080 --performance-mode interactivity --trust-remote-code --enable-auto-tool-choice --tool-call-parser qwen3_coder --reasoning-parser qwen3 --mm-encoder-tp-mode data --mm-processor-cache-type shm --gpu-memory-utilization 0.975 --speculative-config '{"method":"mtp","num_speculative_tokens":2}' --compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}' --async-scheduling --attention-backend flashinfer --max-model-len 196608 --kv-cache-dtype bfloat16 --enable-prefix-caching

パフォーマンスの観測

MTP=2の投機的復号により、コード生成中に60～90 TPSを達成。BF16 KVキャッシュは量子化KVで見られる圧縮問題を回避し、長いコーディングセッションの信頼性を向上。ユーザーは、このセットアップが1枚のRTX 5000 PRO 48GB、64GBのシステムRAM、適切なCPUで動作し、ローカルLLM開発向けの$10kワークステーションの有力な候補であると述べています。