Qwen 3.6 27B a 52.8 tps TG en AMD MI50s: Precisión completa, sin MTP, sin cuantización

✍️ OpenClawRadar📅 Publicado: 14 de mayo de 2026🔗 Source
Qwen 3.6 27B a 52.8 tps TG en AMD MI50s: Precisión completa, sin MTP, sin cuantización
Ad

Un usuario de Reddit ha publicado resultados de evaluación para ejecutar Qwen3.6-27B (precisión completa, sin cuantización) en ocho AMD MI50 (GPUs de 2018) usando un fork personalizado de vllm. El sistema logra 52.8 tokens por segundo (tps) para generación de texto y 1569 tps para procesamiento de prompts con TP8, sin MTP y sin optimizaciones de flash attention que puedan ralentizar prompts grandes.

Detalles Clave

  • Hardware: 8x AMD MI50, PCIe (sin switch PCIe utilizado aún)
  • Motor: vllm fork v0.20.1 con ROCm 7.2.1 – github.com/ai-infos/vllm-gfx906-mobydick
  • Modelo: Qwen/Qwen3.6-27B (HuggingFace precisión completa FP16)
  • Cuantización: Ninguna – precisión FP16 completa
  • MTP: Deshabilitado (más lento para prompts grandes)
  • Flash attention: No utilizado (el flash attention AMD basado en triton también es más lento para prompts grandes)
  • Prompt: Inferencia única con prompts de 1K y 15K tokens (evaluación utilizó 10K entrada, 1K salida)

Resultados de la Evaluación

Solicitudes exitosas: 4
Total tokens de entrada: 40000
Total tokens generados: 4000
Rendimiento de tokens de salida (tok/s): 32.91
Rendimiento máximo de tokens de salida (tok/s): 56.00
Rendimiento total de tokens (tok/s): 362.03
TTFT media (ms): 32874.56
TPOT media (ms): 88.66
ITL media (ms): 88.66

Nota: El usuario reporta 52.8 tps TG para inferencia única con prompt de 15K; la evaluación muestra resultados agregados sobre 4 solicitudes con 10K entrada cada una. Con TP2, el modelo también cabe y funciona a ~34 tps TG.

Ad

Comandos de Configuración (Docker + vllm serve)

docker run -it --name vllm-gfx906-mobydick \
  -v /llm:/llm --network host \
  --device=/dev/kfd --device=/dev/dri \
  --group-add video --group-add $(getent group render | cut -d: -f3) \
  --ipc=host \
  aiinfos/vllm-gfx906-mobydick:v0.20.1rc0.x-rocm7.2.1-pytorch2.11.0 \
  FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm serve \
  /llm/models/Qwen3.6-27B \
  --served-model-name Qwen3.6-27B \
  --dtype float16 \
  --max-model-len auto \
  --max-num-batched-tokens 8192 \
  --block-size 64 \
  --gpu-memory-utilization 0.98 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser qwen3 \
  --mm-processor-cache-gb 1 \
  --limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 \
  --skip-mm-profiling \
  --default-chat-template-kwargs '{"min_p": 0.0, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \
  --tensor-parallel-size 8 \
  --host 0.0.0.0 --port 8000 2>&1 | tee log.txt

Para Quién es

Desarrolladores que ejecutan herramientas de codificación agente (ej., Claude Code, Hermes) en hardware AMD, especialmente con prompts grandes y requisitos de precisión completa.

El usuario señala que son posibles mejoras adicionales con switches PCIe (menor latencia), flash attention/MTP más optimizados para ROCm/gfx906 y stacks de software actualizados.

📖 Lea la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Claude pierde la capacidad de recuperar precios de productos en distintos minoristas
Noticias

Claude pierde la capacidad de recuperar precios de productos en distintos minoristas

A partir del 27 de abril, Claude ya no muestra precios de Amazon, Best Buy, Newegg o B&H Photo. Walmart es el único minorista que aún muestra precios.

OpenClawRadar
Claude Code Elimina Base de Datos de Producción Tras Error en Archivo de Estado de Terraform
Noticias

Claude Code Elimina Base de Datos de Producción Tras Error en Archivo de Estado de Terraform

Un desarrollador utilizó Claude Code para gestionar la infraestructura de AWS con Terraform, pero un archivo de estado faltante provocó recursos duplicados y una posterior operación 'destroy' que borró 2.5 años de registros, incluyendo instantáneas de bases de datos.

OpenClawRadar
Ubuntu Linux integrará funciones de IA en el próximo año, comenzando con inferencia local
Noticias

Ubuntu Linux integrará funciones de IA en el próximo año, comenzando con inferencia local

Canonical anuncia una apuesta multianual por la IA para Ubuntu, centrada en inferencia local, flujos de trabajo agentivos y capacidades del SO conscientes del contexto, con funciones que se lanzarán a lo largo de 2026.

OpenClawRadar
Anthropic cambia los términos de suscripción, los usuarios de OpenClaw ahora facturados por separado por el uso de agentes
Noticias

Anthropic cambia los términos de suscripción, los usuarios de OpenClaw ahora facturados por separado por el uso de agentes

Anthropic ha restringido las suscripciones Claude Max para cubrir solo superficies de primera parte como Claude.ai y Claude Code, y ahora todo el uso de agentes de terceros se factura como 'Uso Extra' por token. Los usuarios tienen cuatro opciones: mantenerse en Max y pagar extra, cambiarse a la API de Anthropic, cambiar de proveedor o usar enrutamiento inteligente con Manifest.

OpenClawRadar