V100 SXM2 Homelab: 64 GB vereinter VRAM für ~1.100 $ bauen

Was das ist

Ein detailliertes Referenzdokument für den Aufbau eines lokalen LLM-Inferenz-Homelabs mit NVIDIA V100 SXM2 GPUs. Die Anleitung konzentriert sich darauf, kostengünstiges, hochbandbreitiges GPU-Pooling durch reverse-engineerter NVLink-Hardware zu erreichen.

Schlüsselhardware: Das 1CATai TECH Board

Die Kernkomponente ist ein kundenspezifisches Quad-GPU-Adapterboard des chinesischen Unternehmens 1CATai TECH (一猫之下科技). Das Board, Modell TAQ-SXM2-4P5A5, implementiert NVIDIAs NVLink 2.0-Signalisierung, um ein echtes NVLink-Mesh über vier V100 SXM2-Module zu erstellen. Dies bietet etwa 300 GB/s bidirektionale Verbindung pro Paar und ermöglicht effektive Tensor-Parallelität.

Ein komplettes Quad-Board-Setup mit 4x V100 SXM2 16GB-Modulen, einer PLX8749-IO-Karte, Kabeln und Kühlung kostet insgesamt etwa 1.000–1.200 US-Dollar und ergibt 64 GB NVLink-vereinigtes VRAM. Einzelne V100 16GB-Module kosten derzeit 56–99 US-Dollar pro Stück.

Was es nicht ist: Häufige Missverständnisse

Es ist kein „ein großer GPU“. nvidia-smi zeigt vier separate GPUs an.
NVLink macht Tensor-Parallelität schnell genug, um sich nahtlos anzufühlen, erfordert aber Software, die TP unterstützt (vLLM, llama.cpp, Ollama funktionieren alle).
Es ist kein automatischer vereinheitlichter Speicher. Zwei Quad-Boards sind zwei separate NVLink-Inseln, die über PCIe verbunden sind, was eine 20-fache Bandbreitenklippe zwischen den Boards erzeugt.
Das Supermicro AOM-SXM2 hat KEINEN NVLink – es ist nur ein Trägerboard.
Die ~900 GB/s-Zahl ist die HBM2-Bandbreite pro Karte, nicht die NVLink-Bandbreite. NVLink 2.0 bietet ~300 GB/s bidirektional pro Paar.

Warum speziell V100 SXM2

900 GB/s HBM2-Bandbreite pro Karte mit NVLink 2.0 im SXM2-Formfaktor.
Module sind physisch identisch über Plattformen hinweg (Supermicro 4029GP-TVRT, Inspur NF5288M5, Dell C4140, DGX-2).
Stilllegungen von Supercomputern (Summit, Sierra) haben den Gebrauchtmarkt überschwemmt und die Preise gedrückt.

Vorteil von MoE-Modellen

Während dichte 70B-Modelle bei Q4 auf einem einzelnen Quad-Board vielleicht mit 20–30 Tok/s laufen, entkoppeln Mixture of Experts (MoE)-Modelle wie DeepSeek V3.2 (~685B gesamt, ~37B aktiv pro Token) Speicheranforderungen von Inferenzbandbreite. V100s mit massiver HBM2-Bandbreite und NVLink-Pools sind ideal für diese Architektur.

Entdeckung des 120V-Servers

Der Supermicro 4029GP-TVRT ist ein 8-fach V100 SXM2-Server mit vollem NVLink-Cube-Mesh (gleiche Topologie wie DGX-1). Er hat Netzteile mit Weitbereichseingang, die 100–240V akzeptieren, und wird mit Standard-US-Steckern geliefert. Bei 120V reduzieren sich die Netzteile auf ~1.100W jeweils. Mit V100s, die über nvidia-smi auf 150W leistungsbegrenzt sind, beträgt der gesamte Systemverbrauch ~1.700W gegenüber ~4.400W verfügbarer Kapazität – handhabbar auf zwei Standard-15A-Stromkreisen. Dies bietet 128 GB 8-fach NVLink-VRAM mit Haushaltsstrom. Gebrauchte Einheiten (8x V100 32GB, dual Xeon Gold, 128GB RAM) wurden auf eBay für unter 1.000 US-Dollar gefunden.

Beschaffungsinformationen

Diese Boards kommen nur aus China. Das Quad-Board kostet ~400 US-Dollar über Taobao-Kaufagenten (Superbuy, CSSBuy) oder ~700–800 US-Dollar von US-Wiederverkäufern auf eBay.

📖 Quelle lesen: r/LocalLLaMA