Qwen 3.6 27B : 52,8 tps TG sur AMD MI50 sans quantification

Un utilisateur de Reddit a publié des résultats de benchmark pour l'exécution de Qwen3.6-27B (pleine précision, sans quantification) sur huit AMD MI50 (GPU de 2018) en utilisant un fork personnalisé de vllm. Le système atteint 52,8 tokens par seconde (tps) pour la génération de texte et 1569 tps pour le traitement des prompts avec TP8, sans MTP et sans optimisations flash attention qui pourraient ralentir les grands prompts.

Détails clés

Matériel : 8x AMD MI50, PCIe (aucun switch PCIe utilisé pour l'instant)
Moteur : Fork vllm v0.20.1 avec ROCm 7.2.1 – github.com/ai-infos/vllm-gfx906-mobydick
Modèle : Qwen/Qwen3.6-27B (HuggingFace pleine précision FP16)
Quantification : Aucune – pleine précision FP16
MTP : Désactivé (plus lent pour les grands prompts)
Flash attention : Non utilisée (la flash attention AMD basée sur Triton est également plus lente pour les grands prompts)
Prompt : Inférence unique avec des prompts de 1K et 15K tokens (le benchmark a utilisé 10K entrée, 1K sortie)

Résultats du benchmark

Successful requests: 4
Total input tokens: 40000
Total generated tokens: 4000
Output token throughput (tok/s): 32.91
Peak output token throughput (tok/s): 56.00
Total token throughput (tok/s): 362.03
Mean TTFT (ms): 32874.56
Mean TPOT (ms): 88.66
Mean ITL (ms): 88.66

Remarque : L'utilisateur rapporte 52,8 tps TG pour une inférence unique avec un prompt de 15K ; le benchmark montre des résultats agrégés sur 4 requêtes avec 10K entrée chacune. Avec TP2, le modèle tient également et tourne à ~34 tps TG.

Commandes de configuration (Docker + vllm serve)

docker run -it --name vllm-gfx906-mobydick \
  -v /llm:/llm --network host \
  --device=/dev/kfd --device=/dev/dri \
  --group-add video --group-add $(getent group render | cut -d: -f3) \
  --ipc=host \
  aiinfos/vllm-gfx906-mobydick:v0.20.1rc0.x-rocm7.2.1-pytorch2.11.0 \
  FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm serve \
  /llm/models/Qwen3.6-27B \
  --served-model-name Qwen3.6-27B \
  --dtype float16 \
  --max-model-len auto \
  --max-num-batched-tokens 8192 \
  --block-size 64 \
  --gpu-memory-utilization 0.98 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser qwen3 \
  --mm-processor-cache-gb 1 \
  --limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 \
  --skip-mm-profiling \
  --default-chat-template-kwargs '{"min_p": 0.0, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \
  --tensor-parallel-size 8 \
  --host 0.0.0.0 --port 8000 2>&1 | tee log.txt

À qui cela s'adresse

Développeurs utilisant des outils de codage agentiques (par exemple, Claude Code, Hermes) sur du matériel AMD, en particulier avec de grands prompts et des exigences de pleine précision.

L'utilisateur note que des améliorations supplémentaires sont possibles avec des switchs PCIe (latence réduite), une flash attention/MTP plus optimisée pour ROCm/gfx906, et des piles logicielles mises à jour.

📖 Lire la source complète : r/LocalLLaMA

Qwen 3.6 27B à 52,8 tps TG sur AMD MI50s : Pleine précision, sans MTP, sans quantification

Détails clés

Résultats du benchmark

Commandes de configuration (Docker + vllm serve)

À qui cela s'adresse

👀 See Also

Problèmes d'accès LAN de l'interface de contrôle dans les réseaux Docker OpenClaw Bridge

Cerebras lance les modèles Step-3.5-Flash-REAP avec une réduction de 40 % de la mémoire.

La mise à jour automatique de Cron a cassé OpenClaw en raison d'une erreur de validation de configuration.

Claude Research Preview Ajoute le Contrôle Direct de l'Ordinateur pour l'Automatisation des Tâches