vLLM на 10x NVIDIA V100: настройка и тесты с 320 ГБ

Конфигурация оборудования и заметки по сборке

Разработчик собрал локальный сервер ИИ с 10x Tesla V100 SXM2 32GB GPU (всего 320GB VRAM) на системе AMD Threadripper PRO. Настройка использует Ubuntu 24.04 headless с драйвером NVIDIA 580.126.20. Топология GPU состоит из двух квадросетей NVLink (GPU 0-3, 4/5/8/9) плюс пара NV6 (GPU 6-7).

Что работает на V100 с vLLM

FP16 без квантования: Основной путь с использованием --dtype half
bitsandbytes 4-бит: Работает для моделей, слишком больших для FP16
TRITON_ATTN: Автоматический откат, так как FlashAttention2 требует SM 80+
Tensor/Pipeline параллелизм: TP=4 и TP=4 PP=2 оба успешно протестированы

Что не работает на V100

GPTQ: Ядра ExLlamaV2 сломаны на SM 7.0 (проблема vLLM #2165)
AWQ: Требует SM 75+
FP8: Требует SM 75+. MiniMax M2.5 использует FP8 внутри — неработоспособен.
FlashAttention2: Требует SM 80+
DeepSeek MLA: Только для Hopper/Blackwell. Полный DeepSeek V3/R1 не может работать на vLLM + V100.

Требования к сборке и критические исправления

PyTorch 2.11.0+cu126 обязателен — cu126 последняя версия с поддержкой V100, так как cu128+ отказывается от Volta. Компиляция из исходников требует TORCH_CUDA_ARCH_LIST="7.0" и MAX_JOBS=20. Необходим патч ядра MoE для проблемы #36008, изменяющий B.size(1) на B.size(0) в fused_moe.py (2 строки). PYTHONNOUSERSITE=1 требуется для изоляции окружения conda от устаревших системных пакетов.

Критическое исправление зависимости NCCL: pip install -e . затягивает nvidia-nccl-cu13 вместе с nvidia-nccl-cu12. Библиотека cu13 загружается во время выполнения и ссылается на символы CUDA 13, которых нет в среде выполнения cu126, что приводит к "NCCL error: unhandled cuda error" при каждом запуске на нескольких GPU. Исправление включает удаление всех пакетов nvidia-* и тщательное управление зависимостями.

📖 Прочитать полный источник: r/LocalLLaMA

Настройка и тестирование vLLM на сервере с 10x NVIDIA V100 и 320 ГБ видеопамяти

Конфигурация оборудования и заметки по сборке

Что работает на V100 с vLLM

Что не работает на V100

Требования к сборке и критические исправления

👀 Смотрите также

Масштабирование агентного кодирования до 150+ PR в неделю: уроки от $85K токенов в Lovable

Проблемы и решения при настройке условного доступа Claude Code O365 MCP

Восстановление удаленных разговоров Claude Desktop из кэша Chromium

Автостопом по Агентивному ИИ — Полный Обзор