V100 SXM2 NVLink Homelab-Anleitung: Bau eines 64 GB vereinten VRAM für ~1.100 $

Was das ist
Ein detailliertes Referenzdokument für den Aufbau eines lokalen LLM-Inferenz-Homelabs mit NVIDIA V100 SXM2 GPUs. Die Anleitung konzentriert sich darauf, kostengünstiges, hochbandbreitiges GPU-Pooling durch reverse-engineerter NVLink-Hardware zu erreichen.
Schlüsselhardware: Das 1CATai TECH Board
Die Kernkomponente ist ein kundenspezifisches Quad-GPU-Adapterboard des chinesischen Unternehmens 1CATai TECH (一猫之下科技). Das Board, Modell TAQ-SXM2-4P5A5, implementiert NVIDIAs NVLink 2.0-Signalisierung, um ein echtes NVLink-Mesh über vier V100 SXM2-Module zu erstellen. Dies bietet etwa 300 GB/s bidirektionale Verbindung pro Paar und ermöglicht effektive Tensor-Parallelität.
Ein komplettes Quad-Board-Setup mit 4x V100 SXM2 16GB-Modulen, einer PLX8749-IO-Karte, Kabeln und Kühlung kostet insgesamt etwa 1.000–1.200 US-Dollar und ergibt 64 GB NVLink-vereinigtes VRAM. Einzelne V100 16GB-Module kosten derzeit 56–99 US-Dollar pro Stück.
Was es nicht ist: Häufige Missverständnisse
- Es ist kein „ein großer GPU“.
nvidia-smizeigt vier separate GPUs an. - NVLink macht Tensor-Parallelität schnell genug, um sich nahtlos anzufühlen, erfordert aber Software, die TP unterstützt (vLLM, llama.cpp, Ollama funktionieren alle).
- Es ist kein automatischer vereinheitlichter Speicher. Zwei Quad-Boards sind zwei separate NVLink-Inseln, die über PCIe verbunden sind, was eine 20-fache Bandbreitenklippe zwischen den Boards erzeugt.
- Das Supermicro AOM-SXM2 hat KEINEN NVLink – es ist nur ein Trägerboard.
- Die ~900 GB/s-Zahl ist die HBM2-Bandbreite pro Karte, nicht die NVLink-Bandbreite. NVLink 2.0 bietet ~300 GB/s bidirektional pro Paar.
Warum speziell V100 SXM2
- 900 GB/s HBM2-Bandbreite pro Karte mit NVLink 2.0 im SXM2-Formfaktor.
- Module sind physisch identisch über Plattformen hinweg (Supermicro 4029GP-TVRT, Inspur NF5288M5, Dell C4140, DGX-2).
- Stilllegungen von Supercomputern (Summit, Sierra) haben den Gebrauchtmarkt überschwemmt und die Preise gedrückt.
Vorteil von MoE-Modellen
Während dichte 70B-Modelle bei Q4 auf einem einzelnen Quad-Board vielleicht mit 20–30 Tok/s laufen, entkoppeln Mixture of Experts (MoE)-Modelle wie DeepSeek V3.2 (~685B gesamt, ~37B aktiv pro Token) Speicheranforderungen von Inferenzbandbreite. V100s mit massiver HBM2-Bandbreite und NVLink-Pools sind ideal für diese Architektur.
Entdeckung des 120V-Servers
Der Supermicro 4029GP-TVRT ist ein 8-fach V100 SXM2-Server mit vollem NVLink-Cube-Mesh (gleiche Topologie wie DGX-1). Er hat Netzteile mit Weitbereichseingang, die 100–240V akzeptieren, und wird mit Standard-US-Steckern geliefert. Bei 120V reduzieren sich die Netzteile auf ~1.100W jeweils. Mit V100s, die über nvidia-smi auf 150W leistungsbegrenzt sind, beträgt der gesamte Systemverbrauch ~1.700W gegenüber ~4.400W verfügbarer Kapazität – handhabbar auf zwei Standard-15A-Stromkreisen. Dies bietet 128 GB 8-fach NVLink-VRAM mit Haushaltsstrom. Gebrauchte Einheiten (8x V100 32GB, dual Xeon Gold, 128GB RAM) wurden auf eBay für unter 1.000 US-Dollar gefunden.
Beschaffungsinformationen
Diese Boards kommen nur aus China. Das Quad-Board kostet ~400 US-Dollar über Taobao-Kaufagenten (Superbuy, CSSBuy) oder ~700–800 US-Dollar von US-Wiederverkäufern auf eBay.
📖 Quelle lesen: r/LocalLLaMA
👀 Siehe auch

Hören Sie auf zu fragen, welches KI-Modell Sie verwenden sollen: Leiten Sie Aufgaben an Haiku-, Sonnet- und Opus-Stufen weiter
Verwenden Sie mindestens drei Modelle nach Aufgabentyp: Haiku-Stufe zum Lesen/Zusammenfassen, Sonnet-Stufe zum Schreiben von Code und Opus-Stufe nur für dateiübergreifende Refactorings und Debugging. Ein Benutzer leitet 40% an günstige Modelle, 35% an mittlere, 25% an Spitzenmodelle weiter, was etwa 30-40 USD/Monat kostet.

Trellis 2 läuft erfolgreich auf ROCm 7.11 mit AMD RX 9070 XT
Ein Entwickler hat Trellis 2 auf Linux Mint 22.3 mit einer AMD RX 9070 XT unter ROCm 7.11 zum Laufen gebracht und dabei zwei Hauptprobleme behoben: Die Instabilität von ROCm bei hohen N-Tensoren und eine fehlerhafte hipMemcpy2D-Funktion in CuMesh.

Vertragsprüfung für KI-gestützte Entwicklung mit OpenClaw
Vertragstests können Integrationstests/E2E-Tests ersetzen, wenn KI-Agenten wie OpenClaw eingesetzt werden, wobei der Fokus auf Schnittstellen und Invarianten zwischen Komponenten liegt. Die KI generiert Code, um deterministische Verträge zu erfüllen, und schafft so eine enge Feedback-Schleife für schnellere Iteration.

Strukturierter KI-Arbeitsablauf mit phasenbasierten Befehlen zur Reduzierung von Nacharbeit
Ein Entwickler teilt einen programmierbaren Workflow mit spezifischen Befehlen wie /pwf-brainstorm und /pwf-work-plan, um häufige KI-Codierungsprobleme anzugehen: verlorenen Kontext, gebrochene Standards und vermischte Planung/Ausführung. Der Ansatz umfasst obligatorische Dokumentationsaktualisierungen und eine Multi-Root-Projektstruktur.