Configuração e Teste do vLLM em Servidor com 10x NVIDIA V100 e 320 GB de VRAM

✍️ OpenClawRadar📅 Publicado: April 15, 2026🔗 Source
Configuração e Teste do vLLM em Servidor com 10x NVIDIA V100 e 320 GB de VRAM
Ad

Configuração de Hardware e Notas de Construção

Um desenvolvedor construiu um servidor local de IA com 10 GPUs Tesla V100 SXM2 de 32 GB (320 GB de VRAM no total) em um sistema AMD Threadripper PRO. A configuração usa Ubuntu 24.04 headless com driver NVIDIA 580.126.20. A topologia das GPUs consiste em duas malhas quad NVLink (GPUs 0-3, 4/5/8/9) mais um par NV6 (GPUs 6-7).

O que Funciona no V100 com vLLM

  • FP16 não quantizado: Caminho principal usando --dtype half
  • bitsandbytes 4-bit: Funciona para modelos muito grandes para FP16
  • TRITON_ATTN: Fallback automático, pois o FlashAttention2 requer SM 80+
  • Paralelismo de Tensor/Pipeline: TP=4 e TP=4 PP=2 ambos testados com sucesso

O que Não Funciona no V100

  • GPTQ: Kernels ExLlamaV2 quebrados no SM 7.0 (problema #2165 do vLLM)
  • AWQ: Requer SM 75+
  • FP8: Requer SM 75+. O MiniMax M2.5 usa FP8 internamente — morto na chegada.
  • FlashAttention2: Requer SM 80+
  • DeepSeek MLA: Apenas Hopper/Blackwell. O DeepSeek V3/R1 completo não pode rodar no vLLM + V100.
Ad

Requisitos de Construção e Correções Críticas

PyTorch 2.11.0+cu126 é necessário — cu126 é a última versão com suporte ao V100, pois cu128+ abandona a Volta. A compilação da fonte requer TORCH_CUDA_ARCH_LIST="7.0" e MAX_JOBS=20. Um patch de kernel MoE é necessário para o problema #36008, alterando B.size(1) para B.size(0) em fused_moe.py (2 linhas). PYTHONNOUSERSITE=1 é necessário para isolar o ambiente conda de pacotes do sistema desatualizados.

Correção Crítica de Dependência NCCL: pip install -e . puxa nvidia-nccl-cu13 junto com nvidia-nccl-cu12. A biblioteca cu13 é carregada em tempo de execução e referencia símbolos CUDA 13 que não existem no runtime cu126, resultando em "erro NCCL: erro cuda não tratado" em cada lançamento multi-GPU. A correção envolve desinstalar todos os pacotes nvidia-* e gerenciar as dependências com cuidado.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also