Qwen 3.6 27B при 52.8 tps TG на AMD MI50s: полная точность, без MTP, без квантизации

Пользователь Reddit опубликовал результаты бенчмарка для запуска Qwen3.6-27B (полная точность, без квантизации) на восьми AMD MI50 (GPU 2018 года) с использованием кастомного форка vllm. Система достигает 52.8 токенов в секунду (tps) для генерации текста и 1569 tps для обработки промптов при TP8, без MTP и без оптимизаций flash attention, которые могут замедлять большие промпты.
Ключевые детали
- Оборудование: 8x AMD MI50, PCIe (свитч PCIe пока не используется)
- Движок: vllm fork v0.20.1 с ROCm 7.2.1 – github.com/ai-infos/vllm-gfx906-mobydick
- Модель:
Qwen/Qwen3.6-27B(HuggingFace полная точность FP16) - Квантизация: Нет – полная точность FP16
- MTP: Отключён (медленнее для больших промптов)
- Flash attention: Не используется (triton-based AMD flash attention также медленнее для больших промптов)
- Промпт: Одиночный инференс с промптами на 1К и 15К токенов (в бенчмарке использовалось 10К входных, 1К выходных токенов)
Результаты бенчмарка
Успешные запросы: 4 Всего входных токенов: 40000 Всего сгенерированных токенов: 4000 Пропускная способность выходных токенов (tok/s): 32.91 Пиковая пропускная способность выходных токенов (tok/s): 56.00 Общая пропускная способность токенов (tok/s): 362.03 Среднее время TTFT (мс): 32874.56 Среднее время TPOT (мс): 88.66 Среднее время ITL (мс): 88.66
Примечание: Пользователь сообщает о 52.8 tps TG для одиночного инференса с промптом на 15К; бенчмарк показывает совокупные результаты по 4 запросам с 10К входных токенов каждый. С TP2 модель также помещается и работает со скоростью около 34 tps TG.
Команды настройки (Docker + vllm serve)
docker run -it --name vllm-gfx906-mobydick \
-v /llm:/llm --network host \
--device=/dev/kfd --device=/dev/dri \
--group-add video --group-add $(getent group render | cut -d: -f3) \
--ipc=host \
aiinfos/vllm-gfx906-mobydick:v0.20.1rc0.x-rocm7.2.1-pytorch2.11.0 \
FLASH_ATTENTION_TRITON_AMD_ENABLE="TRUE" VLLM_LOGGING_LEVEL=DEBUG vllm serve \
/llm/models/Qwen3.6-27B \
--served-model-name Qwen3.6-27B \
--dtype float16 \
--max-model-len auto \
--max-num-batched-tokens 8192 \
--block-size 64 \
--gpu-memory-utilization 0.98 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--reasoning-parser qwen3 \
--mm-processor-cache-gb 1 \
--limit-mm-per-prompt.image 1 --limit-mm-per-prompt.video 1 \
--skip-mm-profiling \
--default-chat-template-kwargs '{"min_p": 0.0, "presence_penalty": 0.0, "repetition_penalty": 1.0}' \
--tensor-parallel-size 8 \
--host 0.0.0.0 --port 8000 2>&1 | tee log.txt
Для кого это
Разработчикам, использующим агентные инструменты для кодирования (например, Claude Code, Hermes) на оборудовании AMD, особенно с большими промптами и требованиями к полной точности.
Пользователь отмечает, что возможны дальнейшие улучшения с использованием PCIe свитчей (меньшая задержка), более оптимизированных flash attention/MTP для ROCm/gfx906 и обновлённых стеков ПО.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Claude Code v2.1.121: MCP alwaysLoad, очистка плагинов, исправления прокрутки терминала и исправления утечек памяти
Claude Code v2.1.121 добавляет alwaysLoad для MCP-серверов, команду plugin prune, фильтр по вводу для /skills, замену вывода PostToolUse, исправления прокрутки терминала и URL, а также несколько исправлений утечек памяти, включая рост RSS на несколько ГБ при большом количестве изображений.

Обновления Claude Code Engineer: AskUserQuestion Markdown, HTTP-хуки, новые навыки
Claude Code Engineer выпустил три обновления: инструмент AskUserQuestion теперь поддерживает сниппеты markdown для диаграмм и примеров кода, новый обработчик HTTP-хуков позволяет хукам отправлять данные на HTTP-эндпоинты, а также добавлены два новых навыка.

Обсуждение искусственного интеллекта на Hacker News смещается с демонстраций на инструменты и инфраструктуру.
Недавние обсуждения искусственного интеллекта на Hacker News смещаются от разовых демонстраций к устойчивым инструментам, таким как отслеживание цен, верификация, память, оценка и интеграция в рабочие процессы. Это сигнализирует о переходе к операционализации, когда сообщества перестают поощрять публикации, ориентированные в первую очередь на новизну.

Политика Википедии в отношении ИИ: Запрет на использование LLM для создания статей, исключения для редактирования и перевода
Википедия запрещает использование LLM для создания или переписывания статей, за узкими исключениями для базовой корректуры и перевода. Нарушения могут привести к быстрому удалению (G15) и удалению AI-сгенерированных комментариев со страниц обсуждения.