V100 SXM2 NVLink Homelab-Anleitung: Bau eines 64 GB vereinten VRAM für ~1.100 $

✍️ OpenClawRadar📅 Veröffentlicht: 11. März 2026🔗 Source
V100 SXM2 NVLink Homelab-Anleitung: Bau eines 64 GB vereinten VRAM für ~1.100 $
Ad

Was das ist

Ein detailliertes Referenzdokument für den Aufbau eines lokalen LLM-Inferenz-Homelabs mit NVIDIA V100 SXM2 GPUs. Die Anleitung konzentriert sich darauf, kostengünstiges, hochbandbreitiges GPU-Pooling durch reverse-engineerter NVLink-Hardware zu erreichen.

Schlüsselhardware: Das 1CATai TECH Board

Die Kernkomponente ist ein kundenspezifisches Quad-GPU-Adapterboard des chinesischen Unternehmens 1CATai TECH (一猫之下科技). Das Board, Modell TAQ-SXM2-4P5A5, implementiert NVIDIAs NVLink 2.0-Signalisierung, um ein echtes NVLink-Mesh über vier V100 SXM2-Module zu erstellen. Dies bietet etwa 300 GB/s bidirektionale Verbindung pro Paar und ermöglicht effektive Tensor-Parallelität.

Ein komplettes Quad-Board-Setup mit 4x V100 SXM2 16GB-Modulen, einer PLX8749-IO-Karte, Kabeln und Kühlung kostet insgesamt etwa 1.000–1.200 US-Dollar und ergibt 64 GB NVLink-vereinigtes VRAM. Einzelne V100 16GB-Module kosten derzeit 56–99 US-Dollar pro Stück.

Was es nicht ist: Häufige Missverständnisse

  • Es ist kein „ein großer GPU“. nvidia-smi zeigt vier separate GPUs an.
  • NVLink macht Tensor-Parallelität schnell genug, um sich nahtlos anzufühlen, erfordert aber Software, die TP unterstützt (vLLM, llama.cpp, Ollama funktionieren alle).
  • Es ist kein automatischer vereinheitlichter Speicher. Zwei Quad-Boards sind zwei separate NVLink-Inseln, die über PCIe verbunden sind, was eine 20-fache Bandbreitenklippe zwischen den Boards erzeugt.
  • Das Supermicro AOM-SXM2 hat KEINEN NVLink – es ist nur ein Trägerboard.
  • Die ~900 GB/s-Zahl ist die HBM2-Bandbreite pro Karte, nicht die NVLink-Bandbreite. NVLink 2.0 bietet ~300 GB/s bidirektional pro Paar.
Ad

Warum speziell V100 SXM2

  • 900 GB/s HBM2-Bandbreite pro Karte mit NVLink 2.0 im SXM2-Formfaktor.
  • Module sind physisch identisch über Plattformen hinweg (Supermicro 4029GP-TVRT, Inspur NF5288M5, Dell C4140, DGX-2).
  • Stilllegungen von Supercomputern (Summit, Sierra) haben den Gebrauchtmarkt überschwemmt und die Preise gedrückt.

Vorteil von MoE-Modellen

Während dichte 70B-Modelle bei Q4 auf einem einzelnen Quad-Board vielleicht mit 20–30 Tok/s laufen, entkoppeln Mixture of Experts (MoE)-Modelle wie DeepSeek V3.2 (~685B gesamt, ~37B aktiv pro Token) Speicheranforderungen von Inferenzbandbreite. V100s mit massiver HBM2-Bandbreite und NVLink-Pools sind ideal für diese Architektur.

Entdeckung des 120V-Servers

Der Supermicro 4029GP-TVRT ist ein 8-fach V100 SXM2-Server mit vollem NVLink-Cube-Mesh (gleiche Topologie wie DGX-1). Er hat Netzteile mit Weitbereichseingang, die 100–240V akzeptieren, und wird mit Standard-US-Steckern geliefert. Bei 120V reduzieren sich die Netzteile auf ~1.100W jeweils. Mit V100s, die über nvidia-smi auf 150W leistungsbegrenzt sind, beträgt der gesamte Systemverbrauch ~1.700W gegenüber ~4.400W verfügbarer Kapazität – handhabbar auf zwei Standard-15A-Stromkreisen. Dies bietet 128 GB 8-fach NVLink-VRAM mit Haushaltsstrom. Gebrauchte Einheiten (8x V100 32GB, dual Xeon Gold, 128GB RAM) wurden auf eBay für unter 1.000 US-Dollar gefunden.

Beschaffungsinformationen

Diese Boards kommen nur aus China. Das Quad-Board kostet ~400 US-Dollar über Taobao-Kaufagenten (Superbuy, CSSBuy) oder ~700–800 US-Dollar von US-Wiederverkäufern auf eBay.

📖 Quelle lesen: r/LocalLLaMA

Ad

👀 Siehe auch

Hören Sie auf zu fragen, welches KI-Modell Sie verwenden sollen: Leiten Sie Aufgaben an Haiku-, Sonnet- und Opus-Stufen weiter
Anleitungen

Hören Sie auf zu fragen, welches KI-Modell Sie verwenden sollen: Leiten Sie Aufgaben an Haiku-, Sonnet- und Opus-Stufen weiter

Verwenden Sie mindestens drei Modelle nach Aufgabentyp: Haiku-Stufe zum Lesen/Zusammenfassen, Sonnet-Stufe zum Schreiben von Code und Opus-Stufe nur für dateiübergreifende Refactorings und Debugging. Ein Benutzer leitet 40% an günstige Modelle, 35% an mittlere, 25% an Spitzenmodelle weiter, was etwa 30-40 USD/Monat kostet.

OpenClawRadar
Trellis 2 läuft erfolgreich auf ROCm 7.11 mit AMD RX 9070 XT
Anleitungen

Trellis 2 läuft erfolgreich auf ROCm 7.11 mit AMD RX 9070 XT

Ein Entwickler hat Trellis 2 auf Linux Mint 22.3 mit einer AMD RX 9070 XT unter ROCm 7.11 zum Laufen gebracht und dabei zwei Hauptprobleme behoben: Die Instabilität von ROCm bei hohen N-Tensoren und eine fehlerhafte hipMemcpy2D-Funktion in CuMesh.

OpenClawRadar
Vertragsprüfung für KI-gestützte Entwicklung mit OpenClaw
Anleitungen

Vertragsprüfung für KI-gestützte Entwicklung mit OpenClaw

Vertragstests können Integrationstests/E2E-Tests ersetzen, wenn KI-Agenten wie OpenClaw eingesetzt werden, wobei der Fokus auf Schnittstellen und Invarianten zwischen Komponenten liegt. Die KI generiert Code, um deterministische Verträge zu erfüllen, und schafft so eine enge Feedback-Schleife für schnellere Iteration.

OpenClawRadar
Strukturierter KI-Arbeitsablauf mit phasenbasierten Befehlen zur Reduzierung von Nacharbeit
Anleitungen

Strukturierter KI-Arbeitsablauf mit phasenbasierten Befehlen zur Reduzierung von Nacharbeit

Ein Entwickler teilt einen programmierbaren Workflow mit spezifischen Befehlen wie /pwf-brainstorm und /pwf-work-plan, um häufige KI-Codierungsprobleme anzugehen: verlorenen Kontext, gebrochene Standards und vermischte Planung/Ausführung. Der Ansatz umfasst obligatorische Dokumentationsaktualisierungen und eine Multi-Root-Projektstruktur.

OpenClawRadar