Настройка и тестирование vLLM на сервере с 10x NVIDIA V100 и 320 ГБ видеопамяти

✍️ OpenClawRadar📅 Опубликовано: 15 апреля 2026 г.🔗 Source
Настройка и тестирование vLLM на сервере с 10x NVIDIA V100 и 320 ГБ видеопамяти
Ad

Конфигурация оборудования и заметки по сборке

Разработчик собрал локальный сервер ИИ с 10x Tesla V100 SXM2 32GB GPU (всего 320GB VRAM) на системе AMD Threadripper PRO. Настройка использует Ubuntu 24.04 headless с драйвером NVIDIA 580.126.20. Топология GPU состоит из двух квадросетей NVLink (GPU 0-3, 4/5/8/9) плюс пара NV6 (GPU 6-7).

Что работает на V100 с vLLM

  • FP16 без квантования: Основной путь с использованием --dtype half
  • bitsandbytes 4-бит: Работает для моделей, слишком больших для FP16
  • TRITON_ATTN: Автоматический откат, так как FlashAttention2 требует SM 80+
  • Tensor/Pipeline параллелизм: TP=4 и TP=4 PP=2 оба успешно протестированы

Что не работает на V100

  • GPTQ: Ядра ExLlamaV2 сломаны на SM 7.0 (проблема vLLM #2165)
  • AWQ: Требует SM 75+
  • FP8: Требует SM 75+. MiniMax M2.5 использует FP8 внутри — неработоспособен.
  • FlashAttention2: Требует SM 80+
  • DeepSeek MLA: Только для Hopper/Blackwell. Полный DeepSeek V3/R1 не может работать на vLLM + V100.
Ad

Требования к сборке и критические исправления

PyTorch 2.11.0+cu126 обязателен — cu126 последняя версия с поддержкой V100, так как cu128+ отказывается от Volta. Компиляция из исходников требует TORCH_CUDA_ARCH_LIST="7.0" и MAX_JOBS=20. Необходим патч ядра MoE для проблемы #36008, изменяющий B.size(1) на B.size(0) в fused_moe.py (2 строки). PYTHONNOUSERSITE=1 требуется для изоляции окружения conda от устаревших системных пакетов.

Критическое исправление зависимости NCCL: pip install -e . затягивает nvidia-nccl-cu13 вместе с nvidia-nccl-cu12. Библиотека cu13 загружается во время выполнения и ссылается на символы CUDA 13, которых нет в среде выполнения cu126, что приводит к "NCCL error: unhandled cuda error" при каждом запуске на нескольких GPU. Исправление включает удаление всех пакетов nvidia-* и тщательное управление зависимостями.

📖 Прочитать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Постмортем: Ошибки биллинга Claude Max + OpenClaw из-за устаревшего OAuth и изолированных задач cron
Гайды

Постмортем: Ошибки биллинга Claude Max + OpenClaw из-за устаревшего OAuth и изолированных задач cron

Агент OpenClaw случайно ломается из-за устаревшего OAuth-токена, который блокирует весь провайдер Anthropic, а изолированные задачи cron попадают в отдельный биллинговый пул Extra Usage. Полное решение: удалить ручной профиль, перенести cron в основную сессию, очистить блокировку биллинга.

OpenClawRadar
6 шаблонов, которые действительно активируют файлы навыков Claude Code
Гайды

6 шаблонов, которые действительно активируют файлы навыков Claude Code

Протестировав более 2300 файлов навыков, разработчик выявил 6 закономерностей, определяющих, загрузится ли навык Claude Code, когда это необходимо – включая конкретный язык триггеров, одну возможность на файл и списки «когда не использовать».

OpenClawRadar
Снизьте расходы на Claude в 60 раз, передав механические задачи DeepSeek V4 Flash через MCP
Гайды

Снизьте расходы на Claude в 60 раз, передав механические задачи DeepSeek V4 Flash через MCP

Пользователь Reddit сократил расходы на Claude API в 60 раз, перенаправив классификацию файлов, переформатирование JSON и извлечение полей на DeepSeek V4 Flash через простой MCP-инструмент и правило deny-list в CLAUDE.md.

OpenClawRadar
Создание локальной системы финансовых данных + персонального ИИ на Mac Studio
Гайды

Создание локальной системы финансовых данных + персонального ИИ на Mac Studio

Разработчик делится опытом создания полностью локализованной системы обработки финансовых данных и персонального ИИ-ассистента на Mac Studio, включая архитектурные решения, разделение памяти, оркестрацию cron и первую оптимизацию.

OpenClawRadar