Qwen3.6 27B FP8: 200k Tokens bei 80 TPS auf RTX 5000 PRO

Ein Reddit-Benutzer in r/LocalLLaMA berichtet, dass er Qwen3.6-27B-FP8 mit einem BF16-KV-Cache von 200.000 Token bei 60–90 TPS auf einer einzelnen RTX 5000 PRO 48GB GPU ausführt. Das Setup verwendet vLLM 0.20.1, CUDA 12.9 und Qwens offizielles FP8-Quant, wodurch Multi-Modalität und MTP-spekulatives Decoding erhalten bleiben.

Setup-Details

Die Umgebung verwendet FlashInfer FP8 MoE, FP8 Marlin und asynchrone Planung. Wichtige Umgebungsvariablen und Startbefehl:

export VLLM_USE_FLASHINFER_MOE_FP8=1 export VLLM_TEST_FORCE_FP8_MARLIN=1 export VLLM_SLEEP_WHEN_IDLE=1 export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1 export VLLM_LOG_STATS_INTERVAL=2 export VLLM_WORKER_MULTIPROC_METHOD=spawn export SAFETENSORS_FAST_GPU=1 export CUDA_DEVICE_ORDER=PCI_BUS_ID export TORCH_FLOAT32_MATMUL_PRECISION=high export PYTORCH_ALLOC_CONF=expandable_segments:True

vllm serve Qwen/Qwen3.6-27B-FP8 --host 0.0.0.0 --port 8080 --performance-mode interactivity --trust-remote-code --enable-auto-tool-choice --tool-call-parser qwen3_coder --reasoning-parser qwen3 --mm-encoder-tp-mode data --mm-processor-cache-type shm --gpu-memory-utilization 0.975 --speculative-config '{"method":"mtp","num_speculative_tokens":2}' --compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}' --async-scheduling --attention-backend flashinfer --max-model-len 196608 --kv-cache-dtype bfloat16 --enable-prefix-caching

Leistungsbeobachtungen

Mit MTP=2 spekulativem Decoding erzeugt das System 60–90 TPS während der Codegenerierung. Der BF16-KV-Cache vermeidet Komprimierungsprobleme, die bei quantisiertem KV auftreten, und macht lange Codierungssitzungen zuverlässiger. Der Benutzer merkt an, dass das Setup auf einer einzelnen RTX 5000 PRO 48GB mit 64GB Systemspeicher und einer ordentlichen CPU läuft, und bezeichnet es als starken Kandidaten für eine 10.000$-Workstation für die lokale LLM-Entwicklung.

Für wen es gedacht ist

Entwickler, die ein lokales, niedrig komprimiertes agentisches Codierungs-Setup mit minimalen Quantisierungsartefakten und langen Kontextfenstern benötigen.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Qwen3.6 27B FP8 läuft mit 200k Tokens BF16 KV-Cache bei 80 TPS auf RTX 5000 PRO 48GB

Setup-Details

Leistungsbeobachtungen

Für wen es gedacht ist

👀 Siehe auch

Die Notwendigkeit relationaler Governance in Multi-Agenten-Systemen

Qwen3-30B-A3B vs Qwen3.5-35B-A3B Leistungsvergleich auf RTX 5090

OpenRouter bestätigt, dass die Hunter/Healer-Alpha-Modelle Varianten von MiMo V2 sind.

Anthropic streamt heute Live-Briefing zu Enterprise Agents