V100 SXM2 ホームラボ構築：約11万円で64GB NVLink統合VRAM

概要

NVIDIA V100 SXM2 GPUを使用したローカルLLM推論ホームラボ構築の詳細なリファレンスドキュメント。本ガイドは、リバースエンジニアリングされたNVLinkハードウェアを通じて、コスト効率の高い高帯域幅GPUプーリングを実現することに焦点を当てています。

主要ハードウェア：1CATai TECHボード

中核となるコンポーネントは、中国企業1CATai TECH（一猫之下科技）のカスタムクワッドGPUアダプターボードです。モデルTAQ-SXM2-4P5A5のこのボードは、NVIDIAのNVLink 2.0シグナリングを実装し、4つのV100 SXM2モジュール間で実際のNVLinkメッシュを形成します。これにより、ペアごとに約300 GB/sの双方向相互接続が提供され、効果的なテンソル並列処理を可能にします。

4x V100 SXM2 16GBモジュール、PLX8749 IOカード、ケーブル、冷却システムを含む完全なクワッドボードセットアップの総費用は約1,000〜1,200ドルで、64GBのNVLink統合VRAMが得られます。個々のV100 16GBモジュールの現在の価格は56〜99ドルです。

注意点：一般的な誤解

これは「1つの大きなGPU」ではありません。nvidia-smiでは4つの別々のGPUが表示されます。
NVLinkによりテンソル並列処理が十分に高速化され、シームレスに感じられますが、TPをサポートするソフトウェアが必要です（vLLM、llama.cpp、Ollamaはすべて動作します）。
自動的な統合メモリではありません。2つのクワッドボードは、PCIeで接続された2つの別々のNVLinkアイランドであり、ボード間で20倍の帯域幅の断崖が生じます。
Supermicro AOM-SXM2にはNVLinkはありません。これは単なるキャリアボードです。
約900 GB/sという数字は、NVLink帯域幅ではなく、カードごとのHBM2帯域幅です。NVLink 2.0はペアごとに約300 GB/sの双方向帯域幅です。

V100 SXM2に特化した理由

SXM2フォームファクターでNVLink 2.0を備え、カードごとに900 GB/sのHBM2帯域幅。
モジュールは物理的にプラットフォーム間で同一（Supermicro 4029GP-TVRT、Inspur NF5288M5、Dell C4140、DGX-2）。
スーパーコンピュータの廃止（Summit、Sierra）により、中古市場に大量に流入し、価格が下落。

MoEモデルの利点

単一のクワッドボードでは、Q4の密な70Bモデルが20〜30 tok/sで実行される可能性がありますが、DeepSeek V3.2（総パラメータ約685B、トークンごとに活性化約37B）のようなMixture of Experts（MoE）モデルは、ストレージ要件と推論帯域幅を分離します。大規模なHBM2帯域幅とNVLinkプールを備えたV100は、このアーキテクチャに理想的です。

120Vサーバーの発見

Supermicro 4029GP-TVRTは、完全なNVLinkキューブメッシュ（DGX-1と同じトポロジ）を備えた8ウェイV100 SXM2サーバーです。広入力範囲のPSU（100-240V対応）を備え、標準的な米国壁コンセントプラグが付属しています。120Vでは、PSUはそれぞれ約1,100Wに低下します。V100はnvidia-smiにより150Wに電力制限され、合計システム消費電力は約1,700Wで、利用可能な約4,400Wの容量に対して管理可能です。これは、2つの標準的な15A回路で対応可能です。これにより、住宅用電源で128GBの8ウェイNVLink VRAMが提供されます。中古ユニット（8x V100 32GB、デュアルXeon Gold、128GB RAM）がeBayで1,000ドル未満で見つかっています。