Guia para Homelab com V100 SXM2 NVLink: Montando 64GB de VRAM Unificada por cerca de US$ 1.100

O Que É Isso
Um documento de referência detalhado para montar um homelab de inferência de LLM local usando GPUs NVIDIA V100 SXM2. O guia foca em alcançar um agrupamento de GPUs de alto desempenho e custo-benefício por meio de hardware de NVLink de engenharia reversa.
Hardware Principal: A Placa 1CATai TECH
O componente central é uma placa adaptadora personalizada para quatro GPUs da empresa chinesa 1CATai TECH (一猫之下科技). A placa, modelo TAQ-SXM2-4P5A5, implementa a sinalização NVLink 2.0 da NVIDIA para criar uma malha NVLink real entre quatro módulos V100 SXM2. Isso fornece aproximadamente 300 GB/s de interconexão bidirecional por par, permitindo paralelismo de tensores eficaz.
Uma configuração completa com placa quádrupla, 4x módulos V100 SXM2 16GB, uma placa de E/S PLX8749, cabos e refrigeração custa cerca de US$ 1.000-1.200 no total, resultando em 64 GB de VRAM unificada por NVLink. Módulos individuais V100 16GB atualmente custam US$ 56-99 cada.
O Que Não É: Equívocos Comuns
- Não é "uma GPU grande".
nvidia-smimostra quatro GPUs separadas. - O NVLink torna o paralelismo de tensores rápido o suficiente para parecer contínuo, mas requer software que suporte TP (vLLM, llama.cpp, Ollama funcionam).
- Não é memória unificada automática. Duas placas quádruplas são duas ilhas NVLink separadas conectadas por PCIe, criando uma queda de largura de banda de 20x entre as placas.
- A Supermicro AOM-SXM2 NÃO tem NVLink—é apenas uma placa de suporte.
- O número de ~900 GB/s é a largura de banda HBM2 por placa, não a largura de banda NVLink. O NVLink 2.0 é de ~300 GB/s bidirecional por par.
Por Que Especificamente V100 SXM2
- 900 GB/s de largura de banda HBM2 por placa com NVLink 2.0 no formato SXM2.
- Os módulos são fisicamente idênticos entre plataformas (Supermicro 4029GP-TVRT, Inspur NF5288M5, Dell C4140, DGX-2).
- Descomissionamentos de supercomputadores (Summit, Sierra) inundaram o mercado secundário, reduzindo os preços.
Vantagem dos Modelos MoE
Embora modelos densos de 70B em Q4 possam rodar a 20-30 tok/s em uma única placa quádrupla, modelos de Mistura de Especialistas (MoE) como o DeepSeek V3.2 (~685B total, ~37B ativos por token) desacoplam os requisitos de armazenamento da largura de banda de inferência. V100s com enorme largura de banda HBM2 e pools NVLink são ideais para essa arquitetura.
Descoberta do Servidor 120V
A Supermicro 4029GP-TVRT é um servidor de 8 vias V100 SXM2 com malha cúbica NVLink completa (mesma topologia do DGX-1). Possui fontes de alimentação de entrada ampla que aceitam 100-240V e vem com plugues de parede padrão dos EUA. A 120V, as fontes reduzem para ~1.100W cada. Com V100s limitadas a 150W via nvidia-smi, o consumo total do sistema é de ~1.700W contra ~4.400W de capacidade disponível—gerenciável em dois circuitos padrão de 15A. Isso fornece 128 GB de VRAM NVLink de 8 vias em energia residencial. Unidades usadas (8x V100 32GB, dual Xeon Gold, 128 GB de RAM) foram encontradas no eBay por menos de US$ 1.000.
Informações de Aquisição
Essas placas vêm apenas da China. A placa quádrupla custa ~US$ 400 por meio de agentes de compra do Taobao (Superbuy, CSSBuy) ou ~US$ 700-800 de revendedores dos EUA no eBay.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Dominando o OpenClaw 101: Um Guia para Iniciantes Inspirado em Insights do Reddit
Mergulhe no OpenClaw com nosso guia completo, inspirado nas percepções da comunidade do Reddit. Evite armadilhas comuns e maximize sua produtividade com essas dicas de especialistas.

Qwen3.5-397B MoE roda em 14GB de RAM via carregamento paginado de especialistas no M1 Ultra
O mecanismo Paged MoE mantém apenas 20 especialistas residentes e carrega o restante sob demanda do SSD, executando um modelo de 397B com 209GB em um Mac Studio de 64GB com 1,59 tok/s e pico de RAM de 14GB. Inclui benchmarks de modelos menores.

Acesse o GPT-5.4 via assinatura Codex no OpenClaw
Uma postagem no Reddit detalha como configurar o OpenClaw para usar o GPT-5.4 por meio de uma assinatura do OpenAI Codex, modificando o arquivo de configuração openclaw.json e reiniciando o gateway.

Anthropic lança plataforma oficial gratuita de aprendizado para a Claude AI
A Anthropic lançou uma plataforma de aprendizado gratuita com cursos estruturados que cobrem o básico do Claude, integração de API, habilidades de agentes e trilhas especializadas para diferentes grupos de usuários.