Configuração e Teste do vLLM em Servidor com 10x NVIDIA V100 e 320 GB de VRAM

Configuração de Hardware e Notas de Construção
Um desenvolvedor construiu um servidor local de IA com 10 GPUs Tesla V100 SXM2 de 32 GB (320 GB de VRAM no total) em um sistema AMD Threadripper PRO. A configuração usa Ubuntu 24.04 headless com driver NVIDIA 580.126.20. A topologia das GPUs consiste em duas malhas quad NVLink (GPUs 0-3, 4/5/8/9) mais um par NV6 (GPUs 6-7).
O que Funciona no V100 com vLLM
- FP16 não quantizado: Caminho principal usando
--dtype half - bitsandbytes 4-bit: Funciona para modelos muito grandes para FP16
- TRITON_ATTN: Fallback automático, pois o FlashAttention2 requer SM 80+
- Paralelismo de Tensor/Pipeline: TP=4 e TP=4 PP=2 ambos testados com sucesso
O que Não Funciona no V100
- GPTQ: Kernels ExLlamaV2 quebrados no SM 7.0 (problema #2165 do vLLM)
- AWQ: Requer SM 75+
- FP8: Requer SM 75+. O MiniMax M2.5 usa FP8 internamente — morto na chegada.
- FlashAttention2: Requer SM 80+
- DeepSeek MLA: Apenas Hopper/Blackwell. O DeepSeek V3/R1 completo não pode rodar no vLLM + V100.
Requisitos de Construção e Correções Críticas
PyTorch 2.11.0+cu126 é necessário — cu126 é a última versão com suporte ao V100, pois cu128+ abandona a Volta. A compilação da fonte requer TORCH_CUDA_ARCH_LIST="7.0" e MAX_JOBS=20. Um patch de kernel MoE é necessário para o problema #36008, alterando B.size(1) para B.size(0) em fused_moe.py (2 linhas). PYTHONNOUSERSITE=1 é necessário para isolar o ambiente conda de pacotes do sistema desatualizados.
Correção Crítica de Dependência NCCL: pip install -e . puxa nvidia-nccl-cu13 junto com nvidia-nccl-cu12. A biblioteca cu13 é carregada em tempo de execução e referencia símbolos CUDA 13 que não existem no runtime cu126, resultando em "erro NCCL: erro cuda não tratado" em cada lançamento multi-GPU. A correção envolve desinstalar todos os pacotes nvidia-* e gerenciar as dependências com cuidado.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Aproveitando as Habilidades do Agente para Escrever Kernels CUDA com Upskill
A Hugging Face apresenta uma abordagem prática para aprimorar modelos na escrita de kernels CUDA usando a nova ferramenta Upskill, melhorando a eficiência do modelo por meio de habilidades de agentes.

Dominando as Habilidades da Garra Aberta: Um Guia Passo a Passo
Desbloqueie todo o potencial do OpenClaw com este guia abrangente sobre como construir novas habilidades. Aprenda estratégias-chave para aprimorar seus projetos usando agentes de codificação com IA.

O Problema da Voz do LLM: Evitando Padrões de Escrita Gerados por IA
Um desenvolvedor discute o problema comum de textos escritos com assistência de LLM apresentarem "LLM-ismos" reconhecíveis que acionam imediatamente a detecção de IA, e compartilha um artigo sobre como identificar esses padrões e editar para autenticidade.

Conselhos Práticos do OpenClaw: Comece Pequeno, Evite Erros Comuns
Um desenvolvedor compartilha lições da construção de um rastreador de saúde pessoal com OpenClaw, enfatizando escopo limitado, fluxos de trabalho determinísticos e manter-se em um único LLM. O post inclui observações específicas de modelos comparando ChatGPT e Gemini.