Qwen 3.6 27B при 52.8 tps TG на AMD MI50s: полная точность, без MTP, без квантизации

✍️ OpenClawRadar📅 Опубликовано: 14 мая 2026 г.🔗 Source

Пользователь Reddit опубликовал результаты бенчмарка для запуска Qwen3.6-27B (полная точность, без квантизации) на восьми AMD MI50 (GPU 2018 года) с использованием кастомного форка vllm. Система достигает 52.8 токенов в секунду (tps) для генерации текста и 1569 tps для обработки промптов при TP8, без MTP и без оптимизаций flash attention, которые могут замедлять большие промпты.

Ключевые детали

Оборудование: 8x AMD MI50, PCIe (свитч PCIe пока не используется)
Движок: vllm fork v0.20.1 с ROCm 7.2.1 – github.com/ai-infos/vllm-gfx906-mobydick
Модель: Qwen/Qwen3.6-27B (HuggingFace полная точность FP16)
Квантизация: Нет – полная точность FP16
MTP: Отключён (медленнее для больших промптов)
Flash attention: Не используется (triton-based AMD flash attention также медленнее для больших промптов)
Промпт: Одиночный инференс с промптами на 1К и 15К токенов (в бенчмарке использовалось 10К входных, 1К выходных токенов)

Результаты бенчмарка

Успешные запросы: 4
Всего входных токенов: 40000
Всего сгенерированных токенов: 4000
Пропускная способность выходных токенов (tok/s): 32.91
Пиковая пропускная способность выходных токенов (tok/s): 56.00
Общая пропускная способность токенов (tok/s): 362.03
Среднее время TTFT (мс): 32874.56
Среднее время TPOT (мс): 88.66
Среднее время ITL (мс): 88.66

Примечание: Пользователь сообщает о 52.8 tps TG для одиночного инференса с промптом на 15К; бенчмарк показывает совокупные результаты по 4 запросам с 10К входных токенов каждый. С TP2 модель также помещается и работает со скоростью около 34 tps TG.

Команды настройки (Docker + vllm serve)

docker run -it --name vllm-gfx906-mobydick \
  -v /llm:/llm --network host \
  --device=/dev/kfd --device=/dev/dri \
  --group-add video --group-add $(getent group render | cut -d: -f3) \
  --ipc=host \
  aiinfos/vllm-gfx906-mobydick:v0.20.1rc0.x-rocm7.2.1-pytorch2.11.0 \
  FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm serve \
  /llm/models/Qwen3.6-27B \
  --served-model-name Qwen3.6-27B \
  --dtype float16 \
  --max-model-len auto \
  --max-num-batched-tokens 8192 \
  --block-size 64 \
  --gpu-memory-utilization 0.98 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser qwen3 \
  --mm-processor-cache-gb 1 \
  --limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 \
  --skip-mm-profiling \
  --default-chat-template-kwargs '{"min_p": 0.0, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \
  --tensor-parallel-size 8 \
  --host 0.0.0.0 --port 8000 2>&1 | tee log.txt

Для кого это

Разработчикам, использующим агентные инструменты для кодирования (например, Claude Code, Hermes) на оборудовании AMD, особенно с большими промптами и требованиями к полной точности.

Пользователь отмечает, что возможны дальнейшие улучшения с использованием PCIe свитчей (меньшая задержка), более оптимизированных flash attention/MTP для ROCm/gfx906 и обновлённых стеков ПО.

📖 Читать полный источник: r/LocalLLaMA

👀 Смотрите также

Новости

Использование воды в центрах обработки данных ИИ в Калифорнии: оценки на основе физических и ИИ-моделей

Анализ California WaterBlog, использующий физику и четыре модели ИИ, оценивает потребление воды дата-центрами ИИ в Калифорнии в 2300–400 000 акро-футов в год, при реалистичном диапазоне 32 000–290 000 акро-футов в год — скромно по сравнению с сельским хозяйством.

1 мая 2026 г., 22:15 UTC

OpenClawRadar

Новости

Пентагон направляет компании Anthropic окончательное предложение по использованию военного ИИ на фоне спора

Пентагон направил компании Anthropic окончательное предложение о неограниченном военном использовании её модели искусственного интеллекта Claude, установив пятничный срок для предоставления полного доступа, в противном случае компания рискует потерять военные контракты и быть объявленной угрозой для цепочки поставок.

26 февр. 2026 г., 21:45 UTC

OpenClawRadar

Новости

Грамматический метод соперничает или превосходит ИИ в анализе авторства.

Исследование Манчестерского университета показало, что LambdaG, грамматический метод анализа авторства, соответствует или превосходит ведущие системы искусственного интеллекта в большинстве тестовых наборов данных, предлагая при этом большую прозрачность и меньшие вычислительные затраты.

17 апр. 2026 г., 23:45 UTC

OpenClawRadar

Новости

AI-агентам нужны примитивы отката, а не только автономия

Разработчик утверждает, что агентные фреймворки должны перенять концепции баз данных, такие как ACID, саги и компенсационные действия, чтобы обрабатывать частичные сбои, а не полагаться на LLM, чтобы «разобраться».

17 мая 2026 г., 10:17 UTC

OpenClawRadar