Qwen 3.6 27B при 52.8 tps TG на AMD MI50s: полная точность, без MTP, без квантизации

✍️ OpenClawRadar📅 Опубликовано: 14 мая 2026 г.🔗 Source
Qwen 3.6 27B при 52.8 tps TG на AMD MI50s: полная точность, без MTP, без квантизации
Ad

Пользователь Reddit опубликовал результаты бенчмарка для запуска Qwen3.6-27B (полная точность, без квантизации) на восьми AMD MI50 (GPU 2018 года) с использованием кастомного форка vllm. Система достигает 52.8 токенов в секунду (tps) для генерации текста и 1569 tps для обработки промптов при TP8, без MTP и без оптимизаций flash attention, которые могут замедлять большие промпты.

Ключевые детали

  • Оборудование: 8x AMD MI50, PCIe (свитч PCIe пока не используется)
  • Движок: vllm fork v0.20.1 с ROCm 7.2.1 – github.com/ai-infos/vllm-gfx906-mobydick
  • Модель: Qwen/Qwen3.6-27B (HuggingFace полная точность FP16)
  • Квантизация: Нет – полная точность FP16
  • MTP: Отключён (медленнее для больших промптов)
  • Flash attention: Не используется (triton-based AMD flash attention также медленнее для больших промптов)
  • Промпт: Одиночный инференс с промптами на 1К и 15К токенов (в бенчмарке использовалось 10К входных, 1К выходных токенов)

Результаты бенчмарка

Успешные запросы: 4
Всего входных токенов: 40000
Всего сгенерированных токенов: 4000
Пропускная способность выходных токенов (tok/s): 32.91
Пиковая пропускная способность выходных токенов (tok/s): 56.00
Общая пропускная способность токенов (tok/s): 362.03
Среднее время TTFT (мс): 32874.56
Среднее время TPOT (мс): 88.66
Среднее время ITL (мс): 88.66

Примечание: Пользователь сообщает о 52.8 tps TG для одиночного инференса с промптом на 15К; бенчмарк показывает совокупные результаты по 4 запросам с 10К входных токенов каждый. С TP2 модель также помещается и работает со скоростью около 34 tps TG.

Ad

Команды настройки (Docker + vllm serve)

docker run -it --name vllm-gfx906-mobydick \
  -v /llm:/llm --network host \
  --device=/dev/kfd --device=/dev/dri \
  --group-add video --group-add $(getent group render | cut -d: -f3) \
  --ipc=host \
  aiinfos/vllm-gfx906-mobydick:v0.20.1rc0.x-rocm7.2.1-pytorch2.11.0 \
  FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm serve \
  /llm/models/Qwen3.6-27B \
  --served-model-name Qwen3.6-27B \
  --dtype float16 \
  --max-model-len auto \
  --max-num-batched-tokens 8192 \
  --block-size 64 \
  --gpu-memory-utilization 0.98 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder \
  --reasoning-parser qwen3 \
  --mm-processor-cache-gb 1 \
  --limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 \
  --skip-mm-profiling \
  --default-chat-template-kwargs '{"min_p": 0.0, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \
  --tensor-parallel-size 8 \
  --host 0.0.0.0 --port 8000 2>&1 | tee log.txt

Для кого это

Разработчикам, использующим агентные инструменты для кодирования (например, Claude Code, Hermes) на оборудовании AMD, особенно с большими промптами и требованиями к полной точности.

Пользователь отмечает, что возможны дальнейшие улучшения с использованием PCIe свитчей (меньшая задержка), более оптимизированных flash attention/MTP для ROCm/gfx906 и обновлённых стеков ПО.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Claude Code v2.1.121: MCP alwaysLoad, очистка плагинов, исправления прокрутки терминала и исправления утечек памяти
Новости

Claude Code v2.1.121: MCP alwaysLoad, очистка плагинов, исправления прокрутки терминала и исправления утечек памяти

Claude Code v2.1.121 добавляет alwaysLoad для MCP-серверов, команду plugin prune, фильтр по вводу для /skills, замену вывода PostToolUse, исправления прокрутки терминала и URL, а также несколько исправлений утечек памяти, включая рост RSS на несколько ГБ при большом количестве изображений.

OpenClawRadar
Обновления Claude Code Engineer: AskUserQuestion Markdown, HTTP-хуки, новые навыки
Новости

Обновления Claude Code Engineer: AskUserQuestion Markdown, HTTP-хуки, новые навыки

Claude Code Engineer выпустил три обновления: инструмент AskUserQuestion теперь поддерживает сниппеты markdown для диаграмм и примеров кода, новый обработчик HTTP-хуков позволяет хукам отправлять данные на HTTP-эндпоинты, а также добавлены два новых навыка.

OpenClawRadar
Обсуждение искусственного интеллекта на Hacker News смещается с демонстраций на инструменты и инфраструктуру.
Новости

Обсуждение искусственного интеллекта на Hacker News смещается с демонстраций на инструменты и инфраструктуру.

Недавние обсуждения искусственного интеллекта на Hacker News смещаются от разовых демонстраций к устойчивым инструментам, таким как отслеживание цен, верификация, память, оценка и интеграция в рабочие процессы. Это сигнализирует о переходе к операционализации, когда сообщества перестают поощрять публикации, ориентированные в первую очередь на новизну.

OpenClawRadar
Политика Википедии в отношении ИИ: Запрет на использование LLM для создания статей, исключения для редактирования и перевода
Новости

Политика Википедии в отношении ИИ: Запрет на использование LLM для создания статей, исключения для редактирования и перевода

Википедия запрещает использование LLM для создания или переписывания статей, за узкими исключениями для базовой корректуры и перевода. Нарушения могут привести к быстрому удалению (G15) и удалению AI-сгенерированных комментариев со страниц обсуждения.

OpenClawRadar