Настройка и тестирование vLLM на сервере с 10x NVIDIA V100 и 320 ГБ видеопамяти

Конфигурация оборудования и заметки по сборке
Разработчик собрал локальный сервер ИИ с 10x Tesla V100 SXM2 32GB GPU (всего 320GB VRAM) на системе AMD Threadripper PRO. Настройка использует Ubuntu 24.04 headless с драйвером NVIDIA 580.126.20. Топология GPU состоит из двух квадросетей NVLink (GPU 0-3, 4/5/8/9) плюс пара NV6 (GPU 6-7).
Что работает на V100 с vLLM
- FP16 без квантования: Основной путь с использованием
--dtype half - bitsandbytes 4-бит: Работает для моделей, слишком больших для FP16
- TRITON_ATTN: Автоматический откат, так как FlashAttention2 требует SM 80+
- Tensor/Pipeline параллелизм: TP=4 и TP=4 PP=2 оба успешно протестированы
Что не работает на V100
- GPTQ: Ядра ExLlamaV2 сломаны на SM 7.0 (проблема vLLM #2165)
- AWQ: Требует SM 75+
- FP8: Требует SM 75+. MiniMax M2.5 использует FP8 внутри — неработоспособен.
- FlashAttention2: Требует SM 80+
- DeepSeek MLA: Только для Hopper/Blackwell. Полный DeepSeek V3/R1 не может работать на vLLM + V100.
Требования к сборке и критические исправления
PyTorch 2.11.0+cu126 обязателен — cu126 последняя версия с поддержкой V100, так как cu128+ отказывается от Volta. Компиляция из исходников требует TORCH_CUDA_ARCH_LIST="7.0" и MAX_JOBS=20. Необходим патч ядра MoE для проблемы #36008, изменяющий B.size(1) на B.size(0) в fused_moe.py (2 строки). PYTHONNOUSERSITE=1 требуется для изоляции окружения conda от устаревших системных пакетов.
Критическое исправление зависимости NCCL: pip install -e . затягивает nvidia-nccl-cu13 вместе с nvidia-nccl-cu12. Библиотека cu13 загружается во время выполнения и ссылается на символы CUDA 13, которых нет в среде выполнения cu126, что приводит к "NCCL error: unhandled cuda error" при каждом запуске на нескольких GPU. Исправление включает удаление всех пакетов nvidia-* и тщательное управление зависимостями.
📖 Прочитать полный источник: r/LocalLLaMA
👀 Смотрите также

Постмортем: Ошибки биллинга Claude Max + OpenClaw из-за устаревшего OAuth и изолированных задач cron
Агент OpenClaw случайно ломается из-за устаревшего OAuth-токена, который блокирует весь провайдер Anthropic, а изолированные задачи cron попадают в отдельный биллинговый пул Extra Usage. Полное решение: удалить ручной профиль, перенести cron в основную сессию, очистить блокировку биллинга.

6 шаблонов, которые действительно активируют файлы навыков Claude Code
Протестировав более 2300 файлов навыков, разработчик выявил 6 закономерностей, определяющих, загрузится ли навык Claude Code, когда это необходимо – включая конкретный язык триггеров, одну возможность на файл и списки «когда не использовать».

Снизьте расходы на Claude в 60 раз, передав механические задачи DeepSeek V4 Flash через MCP
Пользователь Reddit сократил расходы на Claude API в 60 раз, перенаправив классификацию файлов, переформатирование JSON и извлечение полей на DeepSeek V4 Flash через простой MCP-инструмент и правило deny-list в CLAUDE.md.

Создание локальной системы финансовых данных + персонального ИИ на Mac Studio
Разработчик делится опытом создания полностью локализованной системы обработки финансовых данных и персонального ИИ-ассистента на Mac Studio, включая архитектурные решения, разделение памяти, оркестрацию cron и первую оптимизацию.