Qwen3.6 27B FP8 exécute 200k tokens avec cache KV BF16 à 80 TPS sur RTX 5000 PRO 48 Go

✍️ OpenClawRadar📅 Publié: May 5, 2026🔗 Source
Qwen3.6 27B FP8 exécute 200k tokens avec cache KV BF16 à 80 TPS sur RTX 5000 PRO 48 Go
Ad

Un utilisateur de Reddit sur r/LocalLLaMA rapporte avoir exécuté Qwen3.6-27B-FP8 avec un cache KV BF16 de 200k tokens à 60–90 TPS sur une seule carte RTX 5000 PRO 48 Go. La configuration utilise vLLM 0.20.1, CUDA 12.9 et la quantification FP8 officielle de Qwen, préservant la multi-modalité et le décodage spéculatif MTP.

Détails de la configuration

L'environnement utilise FlashInfer FP8 MoE, FP8 Marlin et une planification asynchrone. Variables d'environnement clés et commande de lancement :

export VLLM_USE_FLASHINFER_MOE_FP8=1
export VLLM_TEST_FORCE_FP8_MARLIN=1
export VLLM_SLEEP_WHEN_IDLE=1
export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1
export VLLM_LOG_STATS_INTERVAL=2
export VLLM_WORKER_MULTIPROC_METHOD=spawn
export SAFETENSORS_FAST_GPU=1
export CUDA_DEVICE_ORDER=PCI_BUS_ID
export TORCH_FLOAT32_MATMUL_PRECISION=high
export PYTORCH_ALLOC_CONF=expandable_segments:True

vllm serve Qwen/Qwen3.6-27B-FP8
--host 0.0.0.0 --port 8080
--performance-mode interactivity
--trust-remote-code
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--reasoning-parser qwen3
--mm-encoder-tp-mode data
--mm-processor-cache-type shm
--gpu-memory-utilization 0.975
--speculative-config '{"method":"mtp","num_speculative_tokens":2}'
--compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}'
--async-scheduling
--attention-backend flashinfer
--max-model-len 196608
--kv-cache-dtype bfloat16
--enable-prefix-caching

Ad

Observations sur les performances

Avec le décodage spéculatif MTP=2, le système produit 60–90 TPS lors de la génération de code. Le cache KV BF16 évite les problèmes de compaction observés avec le KV quantifié, rendant les longues sessions de codage plus fiables. L'utilisateur note que la configuration tourne sur une seule RTX 5000 PRO 48 Go avec 64 Go de RAM système et un processeur correct, la qualifiant d'excellent candidat pour une station de travail à 10 000 $ dédiée au développement LLM local.

À qui cela s'adresse

Développeurs ayant besoin d'une configuration locale de codage agentique à faible compression, avec un minimum d'artefacts de quantification et de longs contextes.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Le développeur de Claude Code reconnaît une faille dans la pensée adaptative et propose une solution de contournement.
News

Le développeur de Claude Code reconnaît une faille dans la pensée adaptative et propose une solution de contournement.

Boris Charny, créateur de Claude Code, a confirmé une faille dans la fonction de pensée adaptative qui entraîne une dégradation des performances. Les utilisateurs rencontrant des problèmes même avec les paramètres effort=élevé peuvent utiliser CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 comme solution temporaire.

OpenClawRadar
Traduction en français : Modifications de l'Invite Système de Claude Opus 4.7 : Renommage de la Plateforme, Intégration d'Outils et Mises à Jour Comportementales
News

Traduction en français : Modifications de l'Invite Système de Claude Opus 4.7 : Renommage de la Plateforme, Intégration d'Outils et Mises à Jour Comportementales

Anthropic a mis à jour l'invite système de Claude Opus de la version 4.6 (5 février 2026) à la 4.7 (16 avril 2026), renommant la 'plateforme développeur' en 'Claude Platform', ajoutant Claude dans Powerpoint à la liste des outils, élargissant les instructions de sécurité des enfants et mettant en œuvre de nouvelles directives comportementales pour l'utilisation des outils et la concision des réponses.

OpenClawRadar
L'utilisateur de Reddit explore pourquoi l'IA ne peut pas encore rechercher les avions disparus comme le MH370 dans les images satellitaires.
News

L'utilisateur de Reddit explore pourquoi l'IA ne peut pas encore rechercher les avions disparus comme le MH370 dans les images satellitaires.

Un utilisateur de Reddit a demandé à Claude AI de rechercher dans les bases de données satellitaires et sonar pour localiser des avions disparus comme le MH370 et l'avion d'Amelia Earhart. Claude a répondu qu'il n'avait pas de connexion à ces bases de données ni d'outils de vision par ordinateur pour l'analyse d'images à grande échelle, bien que l'utilisateur note que les composants technologiques nécessaires existent déjà séparément.

OpenClawRadar
Qwen3.6 Plus Preview Disponible Gratuitement via OpenRouter pour OpenClaw
News

Qwen3.6 Plus Preview Disponible Gratuitement via OpenRouter pour OpenClaw

Le modèle Qwen3.6 Plus Preview est désormais accessible gratuitement via OpenRouter pour les utilisateurs d'OpenClaw. La configuration nécessite d'obtenir des clés API auprès d'OpenRouter et de les configurer dans OpenClaw, avec une invite pour définir le niveau de réflexion lors de la première utilisation.

OpenClawRadar