Guía para Homelab con V100 SXM2 NVLink: Construyendo 64GB de VRAM Unificada por ~$1,100

Qué es esto
Un documento de referencia detallado para construir un homelab de inferencia de LLM local utilizando GPUs NVIDIA V100 SXM2. La guía se centra en lograr un agrupamiento de GPUs de alto ancho de banda y rentable mediante hardware de NVLink de ingeniería inversa.
Hardware clave: La placa 1CATai TECH
El componente central es una placa adaptadora personalizada para cuatro GPUs de la empresa china 1CATai TECH (一猫之下科技). La placa, modelo TAQ-SXM2-4P5A5, implementa la señalización NVLink 2.0 de NVIDIA para crear una malla NVLink real entre cuatro módulos V100 SXM2. Esto proporciona aproximadamente 300 GB/s de interconexión bidireccional por par, permitiendo un paralelismo de tensores efectivo.
Una configuración completa de placa cuádruple con 4 módulos V100 SXM2 de 16 GB, una tarjeta de E/S PLX8749, cables y refrigeración cuesta alrededor de $1,000-1,200 en total, obteniendo 64 GB de VRAM unificada por NVLink. Los módulos individuales V100 de 16 GB actualmente cuestan $56-99 cada uno.
Qué no es: Conceptos erróneos comunes
- No es "una GPU grande".
nvidia-smimuestra cuatro GPUs separadas. - NVLink hace que el paralelismo de tensores sea lo suficientemente rápido para sentirse fluido, pero requiere software que admita TP (vLLM, llama.cpp, Ollama funcionan todos).
- No es memoria unificada automática. Dos placas cuádruples son dos islas NVLink separadas conectadas por PCIe, creando un acantilado de ancho de banda de 20x entre placas.
- El Supermicro AOM-SXM2 NO tiene NVLink—es solo una placa portadora.
- El número de ~900 GB/s es el ancho de banda HBM2 por tarjeta, no el ancho de banda NVLink. NVLink 2.0 es ~300 GB/s bidireccional por par.
Por qué específicamente V100 SXM2
- 900 GB/s de ancho de banda HBM2 por tarjeta con NVLink 2.0 en el factor de forma SXM2.
- Los módulos son físicamente idénticos entre plataformas (Supermicro 4029GP-TVRT, Inspur NF5288M5, Dell C4140, DGX-2).
- Las desmantelaciones de supercomputadoras (Summit, Sierra) han inundado el mercado secundario, bajando los precios.
Ventaja de los modelos MoE
Mientras que los modelos densos de 70B en Q4 podrían ejecutarse a 20-30 tok/s en una sola placa cuádruple, los modelos Mixture of Experts (MoE) como DeepSeek V3.2 (~685B total, ~37B activos por token) desacoplan los requisitos de almacenamiento del ancho de banda de inferencia. Las V100 con su enorme ancho de banda HBM2 y agrupaciones NVLink son ideales para esta arquitectura.
Descubrimiento del servidor 120V
El Supermicro 4029GP-TVRT es un servidor de 8 vías V100 SXM2 con malla de cubo NVLink completa (misma topología que DGX-1). Tiene fuentes de alimentación de entrada amplia que aceptan 100-240V y viene con enchufes de pared estándar de EE. UU. A 120V, las fuentes de alimentación se reducen a ~1,100W cada una. Con las V100 limitadas a 150W mediante nvidia-smi, el consumo total del sistema es ~1,700W frente a una capacidad disponible de ~4,400W—manejable en dos circuitos estándar de 15A. Esto proporciona 128 GB de VRAM NVLink de 8 vías en energía residencial. Se han encontrado unidades usadas (8x V100 32GB, doble Xeon Gold, 128GB RAM) en eBay por menos de $1,000.
Información de obtención
Estas placas solo vienen de China. La placa cuádruple cuesta ~$400 a través de agentes de compra de Taobao (Superbuy, CSSBuy) o ~$700-800 de revendedores estadounidenses en eBay.
📖 Lea la fuente completa: r/LocalLLaMA
👀 Ver también

Evaluando la Seguridad de las Habilidades de Agentes: Consideraciones Clave Antes de la Instalación
Instalar nuevas habilidades de agente puede mejorar la funcionalidad, pero también conlleva riesgos. Aprenda a evaluar la seguridad de estas habilidades para proteger su sistema.

Ejecutando OpenClaw, ClawdBot y MoltBot con un presupuesto.
Descubre cómo ejecutar OpenClaw, ClawdBot y MoltBot sin gastar una fortuna. Explora consejos de presupuesto y alternativas gratuitas según lo discutido por entusiastas en r/clawdbot.

Cómo asegurar Claude Cowork con una capa proxy: Guía práctica
Un tutorial sobre cómo configurar una capa proxy para observar y asegurar el comportamiento de Claude Cowork, publicado por el equipo de General Analysis.

Patrones de Fallas de OpenClaw: 42 Incidentes Reales en 28 Días
Un desarrollador que ejecutaba OpenClaw diariamente documentó 42 fallos específicos en ocho categorías, incluyendo alucinaciones de IA, fallos de autenticación y automatizaciones que consumen más tiempo del que ahorran. La fuente proporciona ejemplos concretos como la expiración de tokens OAuth de Google a los 7 días y Opus 4.6 añadiendo metadatos no deseados a los archivos.