Guia Homelab V100 SXM2 NVLink: Monte 64GB VRAM por US$ 1.100

O Que É Isso

Um documento de referência detalhado para montar um homelab de inferência de LLM local usando GPUs NVIDIA V100 SXM2. O guia foca em alcançar um agrupamento de GPUs de alto desempenho e custo-benefício por meio de hardware de NVLink de engenharia reversa.

Hardware Principal: A Placa 1CATai TECH

O componente central é uma placa adaptadora personalizada para quatro GPUs da empresa chinesa 1CATai TECH (一猫之下科技). A placa, modelo TAQ-SXM2-4P5A5, implementa a sinalização NVLink 2.0 da NVIDIA para criar uma malha NVLink real entre quatro módulos V100 SXM2. Isso fornece aproximadamente 300 GB/s de interconexão bidirecional por par, permitindo paralelismo de tensores eficaz.

Uma configuração completa com placa quádrupla, 4x módulos V100 SXM2 16GB, uma placa de E/S PLX8749, cabos e refrigeração custa cerca de US$ 1.000-1.200 no total, resultando em 64 GB de VRAM unificada por NVLink. Módulos individuais V100 16GB atualmente custam US$ 56-99 cada.

O Que Não É: Equívocos Comuns

Não é "uma GPU grande". nvidia-smi mostra quatro GPUs separadas.
O NVLink torna o paralelismo de tensores rápido o suficiente para parecer contínuo, mas requer software que suporte TP (vLLM, llama.cpp, Ollama funcionam).
Não é memória unificada automática. Duas placas quádruplas são duas ilhas NVLink separadas conectadas por PCIe, criando uma queda de largura de banda de 20x entre as placas.
A Supermicro AOM-SXM2 NÃO tem NVLink—é apenas uma placa de suporte.
O número de ~900 GB/s é a largura de banda HBM2 por placa, não a largura de banda NVLink. O NVLink 2.0 é de ~300 GB/s bidirecional por par.

Por Que Especificamente V100 SXM2

900 GB/s de largura de banda HBM2 por placa com NVLink 2.0 no formato SXM2.
Os módulos são fisicamente idênticos entre plataformas (Supermicro 4029GP-TVRT, Inspur NF5288M5, Dell C4140, DGX-2).
Descomissionamentos de supercomputadores (Summit, Sierra) inundaram o mercado secundário, reduzindo os preços.

Vantagem dos Modelos MoE

Embora modelos densos de 70B em Q4 possam rodar a 20-30 tok/s em uma única placa quádrupla, modelos de Mistura de Especialistas (MoE) como o DeepSeek V3.2 (~685B total, ~37B ativos por token) desacoplam os requisitos de armazenamento da largura de banda de inferência. V100s com enorme largura de banda HBM2 e pools NVLink são ideais para essa arquitetura.

Descoberta do Servidor 120V

A Supermicro 4029GP-TVRT é um servidor de 8 vias V100 SXM2 com malha cúbica NVLink completa (mesma topologia do DGX-1). Possui fontes de alimentação de entrada ampla que aceitam 100-240V e vem com plugues de parede padrão dos EUA. A 120V, as fontes reduzem para ~1.100W cada. Com V100s limitadas a 150W via nvidia-smi, o consumo total do sistema é de ~1.700W contra ~4.400W de capacidade disponível—gerenciável em dois circuitos padrão de 15A. Isso fornece 128 GB de VRAM NVLink de 8 vias em energia residencial. Unidades usadas (8x V100 32GB, dual Xeon Gold, 128 GB de RAM) foram encontradas no eBay por menos de US$ 1.000.

Informações de Aquisição

Essas placas vêm apenas da China. A placa quádrupla custa ~US$ 400 por meio de agentes de compra do Taobao (Superbuy, CSSBuy) ou ~US$ 700-800 de revendedores dos EUA no eBay.

📖 Leia a fonte completa: r/LocalLLaMA