Homelab V100 SXM2 NVLink : 64 Go VRAM pour 1 100 $

Ce que c'est

Un document de référence détaillé pour construire un homelab d'inférence LLM local utilisant des GPU NVIDIA V100 SXM2. Le guide se concentre sur l'obtention d'un regroupement de GPU à haut débit et rentable grâce à du matériel NVLink rétro-conçu.

Matériel clé : La carte 1CATai TECH

Le composant principal est une carte adaptateur quad-GPU personnalisée de la société chinoise 1CATai TECH (一猫之下科技). La carte, modèle TAQ-SXM2-4P5A5, implémente la signalisation NVLink 2.0 de NVIDIA pour créer un véritable maillage NVLink sur quatre modules V100 SXM2. Cela fournit environ 300 Go/s d'interconnexion bidirectionnelle par paire, permettant un parallélisme tensoriel efficace.

Une configuration complète de carte quad avec 4 modules V100 SXM2 16 Go, une carte IO PLX8749, des câbles et un refroidissement coûte environ 1 000 à 1 200 $ au total, offrant 64 Go de VRAM unifiée par NVLink. Les modules V100 16 Go individuels coûtent actuellement entre 56 et 99 $ chacun.

Ce que ce n'est pas : Idées fausses courantes

Ce n'est pas "un seul gros GPU". nvidia-smi affiche quatre GPU séparés.
NVLink rend le parallélisme tensoriel suffisamment rapide pour sembler transparent, mais nécessite un logiciel qui prend en charge le TP (vLLM, llama.cpp, Ollama fonctionnent tous).
Ce n'est pas une mémoire unifiée automatique. Deux cartes quad sont deux îlots NVLink distincts connectés par PCIe, créant un décalage de bande passante de 20x entre les cartes.
Le Supermicro AOM-SXM2 n'a PAS de NVLink—c'est juste une carte porteuse.
Le chiffre d'environ 900 Go/s est la bande passante HBM2 par carte, pas la bande passante NVLink. NVLink 2.0 est d'environ 300 Go/s bidirectionnel par paire.

Pourquoi spécifiquement le V100 SXM2

900 Go/s de bande passante HBM2 par carte avec NVLink 2.0 sur le facteur de forme SXM2.
Les modules sont physiquement identiques sur toutes les plateformes (Supermicro 4029GP-TVRT, Inspur NF5288M5, Dell C4140, DGX-2).
Les déclassements de supercalculateurs (Summit, Sierra) ont inondé le marché secondaire, faisant baisser les prix.

Avantage des modèles MoE

Alors que les modèles denses 70B en Q4 pourraient tourner à 20-30 tok/s sur une seule carte quad, les modèles Mixture of Experts (MoE) comme DeepSeek V3.2 (~685B total, ~37B actif par token) découplent les besoins de stockage de la bande passante d'inférence. Les V100 avec leur énorme bande passante HBM2 et leurs pools NVLink sont idéaux pour cette architecture.

Découverte du serveur 120V

Le Supermicro 4029GP-TVRT est un serveur 8 voies V100 SXM2 avec un maillage cube NVLink complet (même topologie que le DGX-1). Il dispose d'alimentations à entrée large acceptant 100-240V et est livré avec des prises murales standard américaines. À 120V, les alimentations se déclassent à environ 1 100W chacune. Avec les V100 limités à 150W via nvidia-smi, la consommation totale du système est d'environ 1 700W contre une capacité disponible d'environ 4 400W—gérable sur deux circuits standard 15A. Cela fournit 128 Go de VRAM NVLink 8 voies sur une alimentation résidentielle. Des unités d'occasion (8x V100 32 Go, double Xeon Gold, 128 Go de RAM) ont été trouvées sur eBay pour moins de 1 000 $.

Informations sur l'approvisionnement

Ces cartes viennent uniquement de Chine. La carte quad coûte environ 400 $ via des agents d'achat Taobao (Superbuy, CSSBuy) ou environ 700-800 $ auprès de revendeurs américains sur eBay.

📖 Lire la source complète : r/LocalLLaMA