Qwen 3.6 27B à 52,8 tps TG sur AMD MI50s : Pleine précision, sans MTP, sans quantification

Un utilisateur de Reddit a publié des résultats de benchmark pour l'exécution de Qwen3.6-27B (pleine précision, sans quantification) sur huit AMD MI50 (GPU de 2018) en utilisant un fork personnalisé de vllm. Le système atteint 52,8 tokens par seconde (tps) pour la génération de texte et 1569 tps pour le traitement des prompts avec TP8, sans MTP et sans optimisations flash attention qui pourraient ralentir les grands prompts.
Détails clés
- Matériel : 8x AMD MI50, PCIe (aucun switch PCIe utilisé pour l'instant)
- Moteur : Fork vllm v0.20.1 avec ROCm 7.2.1 – github.com/ai-infos/vllm-gfx906-mobydick
- Modèle :
Qwen/Qwen3.6-27B(HuggingFace pleine précision FP16) - Quantification : Aucune – pleine précision FP16
- MTP : Désactivé (plus lent pour les grands prompts)
- Flash attention : Non utilisée (la flash attention AMD basée sur Triton est également plus lente pour les grands prompts)
- Prompt : Inférence unique avec des prompts de 1K et 15K tokens (le benchmark a utilisé 10K entrée, 1K sortie)
Résultats du benchmark
Successful requests: 4 Total input tokens: 40000 Total generated tokens: 4000 Output token throughput (tok/s): 32.91 Peak output token throughput (tok/s): 56.00 Total token throughput (tok/s): 362.03 Mean TTFT (ms): 32874.56 Mean TPOT (ms): 88.66 Mean ITL (ms): 88.66
Remarque : L'utilisateur rapporte 52,8 tps TG pour une inférence unique avec un prompt de 15K ; le benchmark montre des résultats agrégés sur 4 requêtes avec 10K entrée chacune. Avec TP2, le modèle tient également et tourne à ~34 tps TG.
Commandes de configuration (Docker + vllm serve)
docker run -it --name vllm-gfx906-mobydick \
-v /llm:/llm --network host \
--device=/dev/kfd --device=/dev/dri \
--group-add video --group-add $(getent group render | cut -d: -f3) \
--ipc=host \
aiinfos/vllm-gfx906-mobydick:v0.20.1rc0.x-rocm7.2.1-pytorch2.11.0 \
FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm serve \
/llm/models/Qwen3.6-27B \
--served-model-name Qwen3.6-27B \
--dtype float16 \
--max-model-len auto \
--max-num-batched-tokens 8192 \
--block-size 64 \
--gpu-memory-utilization 0.98 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser qwen3 \
--mm-processor-cache-gb 1 \
--limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 \
--skip-mm-profiling \
--default-chat-template-kwargs '{"min_p": 0.0, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \
--tensor-parallel-size 8 \
--host 0.0.0.0 --port 8000 2>&1 | tee log.txt
À qui cela s'adresse
Développeurs utilisant des outils de codage agentiques (par exemple, Claude Code, Hermes) sur du matériel AMD, en particulier avec de grands prompts et des exigences de pleine précision.
L'utilisateur note que des améliorations supplémentaires sont possibles avec des switchs PCIe (latence réduite), une flash attention/MTP plus optimisée pour ROCm/gfx906, et des piles logicielles mises à jour.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Les agences fédérales reçoivent l'ordre de cesser d'utiliser la technologie d'IA d'Anthropic.
Le président Donald Trump a ordonné aux agences gouvernementales américaines de cesser immédiatement d'utiliser la technologie de la société d'IA Anthropic. Cet ordre intervient alors qu'Anthropic subit des pressions du ministère de la Défense concernant les restrictions d'utilisation de ses modèles d'IA.

RTX 4090 vs H100 pour le Fine-Tuning de Llama-3-8B : Une Comparaison Coût-Performance
Un développeur a testé le fine-tuning de Llama-3-8B sur une RTX 4090 et sur des instances H100 louées. La configuration avec la 4090 a coûté 2 000 $ d'avance et a pris 24 heures, tandis que la location de H100 a coûté environ 80 $ et s'est terminée en 4 heures.

Devenir ingénieur IA à plein temps : ne plus toucher au code
Max Heyer décrit un workflow où les agents écrivent tout le code, lui se contente de lire les diffs, rédiger les spécifications et faire la relecture. La compétence qui compte est le goût — évaluer le code est plus difficile que le produire.

Mistral Medium 3.5 128B publié : modèle dense avec raisonnement et vision configurables
Mistral AI a publié Mistral Medium 3.5, un modèle dense de 128B avec un contexte de 256k, un effort de raisonnement configurable et des capacités de vision, sous une licence MIT modifiée.