Configuração e Teste do vLLM em Servidor com 10x NVIDIA V100 e 320 GB de VRAM

✍️ OpenClawRadar📅 Publicado: April 15, 2026🔗 Source

Configuração de Hardware e Notas de Construção

Um desenvolvedor construiu um servidor local de IA com 10 GPUs Tesla V100 SXM2 de 32 GB (320 GB de VRAM no total) em um sistema AMD Threadripper PRO. A configuração usa Ubuntu 24.04 headless com driver NVIDIA 580.126.20. A topologia das GPUs consiste em duas malhas quad NVLink (GPUs 0-3, 4/5/8/9) mais um par NV6 (GPUs 6-7).

O que Funciona no V100 com vLLM

FP16 não quantizado: Caminho principal usando --dtype half
bitsandbytes 4-bit: Funciona para modelos muito grandes para FP16
TRITON_ATTN: Fallback automático, pois o FlashAttention2 requer SM 80+
Paralelismo de Tensor/Pipeline: TP=4 e TP=4 PP=2 ambos testados com sucesso

O que Não Funciona no V100

GPTQ: Kernels ExLlamaV2 quebrados no SM 7.0 (problema #2165 do vLLM)
AWQ: Requer SM 75+
FP8: Requer SM 75+. O MiniMax M2.5 usa FP8 internamente — morto na chegada.
FlashAttention2: Requer SM 80+
DeepSeek MLA: Apenas Hopper/Blackwell. O DeepSeek V3/R1 completo não pode rodar no vLLM + V100.

Requisitos de Construção e Correções Críticas

PyTorch 2.11.0+cu126 é necessário — cu126 é a última versão com suporte ao V100, pois cu128+ abandona a Volta. A compilação da fonte requer TORCH_CUDA_ARCH_LIST="7.0" e MAX_JOBS=20. Um patch de kernel MoE é necessário para o problema #36008, alterando B.size(1) para B.size(0) em fused_moe.py (2 linhas). PYTHONNOUSERSITE=1 é necessário para isolar o ambiente conda de pacotes do sistema desatualizados.

Correção Crítica de Dependência NCCL: pip install -e . puxa nvidia-nccl-cu13 junto com nvidia-nccl-cu12. A biblioteca cu13 é carregada em tempo de execução e referencia símbolos CUDA 13 que não existem no runtime cu126, resultando em "erro NCCL: erro cuda não tratado" em cada lançamento multi-GPU. A correção envolve desinstalar todos os pacotes nvidia-* e gerenciar as dependências com cuidado.

📖 Leia a fonte completa: r/LocalLLaMA

👀 See Also

Guides

Executando o OpenClaw Localmente com Ollama para Evitar Custos de API

Um usuário do Reddit compartilha sua experiência ao mudar do OpenClaw baseado em API para executá-lo localmente com o Ollama, eliminando os custos de API enquanto mantém os fluxos de trabalho. Eles criaram um guia de instalação em vídeo passo a passo.

Mar 19, 2026, 05:45 PM UTC

OpenClawRadar

Guides

Mapas de Fluxo: Aprendendo a Integral de um Modelo de Difusão para Amostragem Mais Rápida

Sander Dieleman explica os mapas de fluxo — redes neurais que preveem diretamente a integral da EDO de um modelo de difusão, permitindo amostragem mais rápida, aprendizado baseado em recompensa e controlabilidade.

May 6, 2026, 08:20 PM UTC

OpenClawRadar

Guides

Usando IA para Escrever Código Melhor e Mais Devagar: Um Fluxo de Trabalho para Encontrar Bugs

Nolan Lawson descreve um workflow usando múltiplos agentes de IA (Claude, Codex, Cursor Bugbot) para encontrar e priorizar bugs em PRs, melhorando a qualidade do código em vez da velocidade bruta.

May 26, 2026, 12:15 PM UTC

OpenClawRadar

Guides

Rodando Qwen3.6 27B e 35B em 6GB de VRAM com ik_llama: Configurações Práticas e Benchmarks

Um usuário compartilha configurações detalhadas de ik_llama e números de desempenho para executar modelos Qwen3.6 27B e 35B A3B em um RTX2060 mobile (6GB VRAM, 32GB RAM), com velocidades de preenchimento de 40-100 t/s e geração de até 11 t/s.

May 17, 2026, 10:16 PM UTC

OpenClawRadar