Qwen3.6 27B FP8 : 200k tokens à 80 TPS sur RTX 5000 PRO

Un utilisateur de Reddit sur r/LocalLLaMA rapporte avoir exécuté Qwen3.6-27B-FP8 avec un cache KV BF16 de 200k tokens à 60–90 TPS sur une seule carte RTX 5000 PRO 48 Go. La configuration utilise vLLM 0.20.1, CUDA 12.9 et la quantification FP8 officielle de Qwen, préservant la multi-modalité et le décodage spéculatif MTP.

Détails de la configuration

L'environnement utilise FlashInfer FP8 MoE, FP8 Marlin et une planification asynchrone. Variables d'environnement clés et commande de lancement :

export VLLM_USE_FLASHINFER_MOE_FP8=1 export VLLM_TEST_FORCE_FP8_MARLIN=1 export VLLM_SLEEP_WHEN_IDLE=1 export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1 export VLLM_LOG_STATS_INTERVAL=2 export VLLM_WORKER_MULTIPROC_METHOD=spawn export SAFETENSORS_FAST_GPU=1 export CUDA_DEVICE_ORDER=PCI_BUS_ID export TORCH_FLOAT32_MATMUL_PRECISION=high export PYTORCH_ALLOC_CONF=expandable_segments:True

vllm serve Qwen/Qwen3.6-27B-FP8 --host 0.0.0.0 --port 8080 --performance-mode interactivity --trust-remote-code --enable-auto-tool-choice --tool-call-parser qwen3_coder --reasoning-parser qwen3 --mm-encoder-tp-mode data --mm-processor-cache-type shm --gpu-memory-utilization 0.975 --speculative-config '{"method":"mtp","num_speculative_tokens":2}' --compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}' --async-scheduling --attention-backend flashinfer --max-model-len 196608 --kv-cache-dtype bfloat16 --enable-prefix-caching

Observations sur les performances

Avec le décodage spéculatif MTP=2, le système produit 60–90 TPS lors de la génération de code. Le cache KV BF16 évite les problèmes de compaction observés avec le KV quantifié, rendant les longues sessions de codage plus fiables. L'utilisateur note que la configuration tourne sur une seule RTX 5000 PRO 48 Go avec 64 Go de RAM système et un processeur correct, la qualifiant d'excellent candidat pour une station de travail à 10 000 $ dédiée au développement LLM local.

À qui cela s'adresse

Développeurs ayant besoin d'une configuration locale de codage agentique à faible compression, avec un minimum d'artefacts de quantification et de longs contextes.

📖 Lire la source complète : r/LocalLLaMA

Qwen3.6 27B FP8 exécute 200k tokens avec cache KV BF16 à 80 TPS sur RTX 5000 PRO 48 Go

Détails de la configuration

Observations sur les performances

À qui cela s'adresse

👀 See Also

Utilisateur signale que Sonnet 4.6 surpasse Opus 4.6 pour les tâches de codage pratiques.

Fiche technique du modèle Claude Opus 4.7 publiée

Claude-Code v2.1.51 : Corrections de sécurité, améliorations des performances et nouvelle fonctionnalité de contrôle à distance

Les modèles de pointe d'OpenAI et Codex désormais disponibles sur AWS