Qwen 3.6 27B a 52.8 tps en AMD MI50s: Benchmark sin cuantización

Un usuario de Reddit ha publicado resultados de evaluación para ejecutar Qwen3.6-27B (precisión completa, sin cuantización) en ocho AMD MI50 (GPUs de 2018) usando un fork personalizado de vllm. El sistema logra 52.8 tokens por segundo (tps) para generación de texto y 1569 tps para procesamiento de prompts con TP8, sin MTP y sin optimizaciones de flash attention que puedan ralentizar prompts grandes.

Detalles Clave

Hardware: 8x AMD MI50, PCIe (sin switch PCIe utilizado aún)
Motor: vllm fork v0.20.1 con ROCm 7.2.1 – github.com/ai-infos/vllm-gfx906-mobydick
Modelo: Qwen/Qwen3.6-27B (HuggingFace precisión completa FP16)
Cuantización: Ninguna – precisión FP16 completa
MTP: Deshabilitado (más lento para prompts grandes)
Flash attention: No utilizado (el flash attention AMD basado en triton también es más lento para prompts grandes)
Prompt: Inferencia única con prompts de 1K y 15K tokens (evaluación utilizó 10K entrada, 1K salida)

Resultados de la Evaluación

Solicitudes exitosas: 4
Total tokens de entrada: 40000
Total tokens generados: 4000
Rendimiento de tokens de salida (tok/s): 32.91
Rendimiento máximo de tokens de salida (tok/s): 56.00
Rendimiento total de tokens (tok/s): 362.03
TTFT media (ms): 32874.56
TPOT media (ms): 88.66
ITL media (ms): 88.66

Nota: El usuario reporta 52.8 tps TG para inferencia única con prompt de 15K; la evaluación muestra resultados agregados sobre 4 solicitudes con 10K entrada cada una. Con TP2, el modelo también cabe y funciona a ~34 tps TG.

Comandos de Configuración (Docker + vllm serve)

docker run -it --name vllm-gfx906-mobydick \
  -v /llm:/llm --network host \
  --device=/dev/kfd --device=/dev/dri \
  --group-add video --group-add $(getent group render | cut -d: -f3) \
  --ipc=host \
  aiinfos/vllm-gfx906-mobydick:v0.20.1rc0.x-rocm7.2.1-pytorch2.11.0 \
  FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm serve \
  /llm/models/Qwen3.6-27B \
  --served-model-name Qwen3.6-27B \
  --dtype float16 \
  --max-model-len auto \
  --max-num-batched-tokens 8192 \
  --block-size 64 \
  --gpu-memory-utilization 0.98 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser qwen3 \
  --mm-processor-cache-gb 1 \
  --limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 \
  --skip-mm-profiling \
  --default-chat-template-kwargs '{"min_p": 0.0, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \
  --tensor-parallel-size 8 \
  --host 0.0.0.0 --port 8000 2>&1 | tee log.txt

Para Quién es

Desarrolladores que ejecutan herramientas de codificación agente (ej., Claude Code, Hermes) en hardware AMD, especialmente con prompts grandes y requisitos de precisión completa.

El usuario señala que son posibles mejoras adicionales con switches PCIe (menor latencia), flash attention/MTP más optimizados para ROCm/gfx906 y stacks de software actualizados.

📖 Lea la fuente completa: r/LocalLLaMA

Qwen 3.6 27B a 52.8 tps TG en AMD MI50s: Precisión completa, sin MTP, sin cuantización

Detalles Clave

Resultados de la Evaluación

Comandos de Configuración (Docker + vllm serve)

Para Quién es

👀 Ver también

OpenClaw 2026.3.22-beta.1: Cambios clave en el flujo de trabajo para autores de plugins y automatización de navegadores

Un estándar abierto para registros de ejecución de agentes: El caso de un esquema de registro compartido

China prohíbe a los cofundadores de Manus salir del país durante la revisión del acuerdo con Meta

Claude Encabeza las Listas de la App Store en Medio del Enfrentamiento Gubernamental