Homelab V100 SXM2 NVLink: 64GB VRAM por $1,100

Qué es esto

Un documento de referencia detallado para construir un homelab de inferencia de LLM local utilizando GPUs NVIDIA V100 SXM2. La guía se centra en lograr un agrupamiento de GPUs de alto ancho de banda y rentable mediante hardware de NVLink de ingeniería inversa.

Hardware clave: La placa 1CATai TECH

El componente central es una placa adaptadora personalizada para cuatro GPUs de la empresa china 1CATai TECH (一猫之下科技). La placa, modelo TAQ-SXM2-4P5A5, implementa la señalización NVLink 2.0 de NVIDIA para crear una malla NVLink real entre cuatro módulos V100 SXM2. Esto proporciona aproximadamente 300 GB/s de interconexión bidireccional por par, permitiendo un paralelismo de tensores efectivo.

Una configuración completa de placa cuádruple con 4 módulos V100 SXM2 de 16 GB, una tarjeta de E/S PLX8749, cables y refrigeración cuesta alrededor de $1,000-1,200 en total, obteniendo 64 GB de VRAM unificada por NVLink. Los módulos individuales V100 de 16 GB actualmente cuestan $56-99 cada uno.

Qué no es: Conceptos erróneos comunes

No es "una GPU grande". nvidia-smi muestra cuatro GPUs separadas.
NVLink hace que el paralelismo de tensores sea lo suficientemente rápido para sentirse fluido, pero requiere software que admita TP (vLLM, llama.cpp, Ollama funcionan todos).
No es memoria unificada automática. Dos placas cuádruples son dos islas NVLink separadas conectadas por PCIe, creando un acantilado de ancho de banda de 20x entre placas.
El Supermicro AOM-SXM2 NO tiene NVLink—es solo una placa portadora.
El número de ~900 GB/s es el ancho de banda HBM2 por tarjeta, no el ancho de banda NVLink. NVLink 2.0 es ~300 GB/s bidireccional por par.

Por qué específicamente V100 SXM2

900 GB/s de ancho de banda HBM2 por tarjeta con NVLink 2.0 en el factor de forma SXM2.
Los módulos son físicamente idénticos entre plataformas (Supermicro 4029GP-TVRT, Inspur NF5288M5, Dell C4140, DGX-2).
Las desmantelaciones de supercomputadoras (Summit, Sierra) han inundado el mercado secundario, bajando los precios.

Ventaja de los modelos MoE

Mientras que los modelos densos de 70B en Q4 podrían ejecutarse a 20-30 tok/s en una sola placa cuádruple, los modelos Mixture of Experts (MoE) como DeepSeek V3.2 (~685B total, ~37B activos por token) desacoplan los requisitos de almacenamiento del ancho de banda de inferencia. Las V100 con su enorme ancho de banda HBM2 y agrupaciones NVLink son ideales para esta arquitectura.

Descubrimiento del servidor 120V

El Supermicro 4029GP-TVRT es un servidor de 8 vías V100 SXM2 con malla de cubo NVLink completa (misma topología que DGX-1). Tiene fuentes de alimentación de entrada amplia que aceptan 100-240V y viene con enchufes de pared estándar de EE. UU. A 120V, las fuentes de alimentación se reducen a ~1,100W cada una. Con las V100 limitadas a 150W mediante nvidia-smi, el consumo total del sistema es ~1,700W frente a una capacidad disponible de ~4,400W—manejable en dos circuitos estándar de 15A. Esto proporciona 128 GB de VRAM NVLink de 8 vías en energía residencial. Se han encontrado unidades usadas (8x V100 32GB, doble Xeon Gold, 128GB RAM) en eBay por menos de $1,000.

Información de obtención

Estas placas solo vienen de China. La placa cuádruple cuesta ~$400 a través de agentes de compra de Taobao (Superbuy, CSSBuy) o ~$700-800 de revendedores estadounidenses en eBay.

📖 Lea la fuente completa: r/LocalLLaMA