V100 MoEクラスター：122Bモデルを4GPUで50 tok/s

Threadripper Pro上で12基のV100 32GB SXM2クラスターを運用する弁護士によると、Volta GPU（Compute Capability 7.0）ではMoEモデルのみが実用的なデコード速度を発揮する。高密度モデルは落とし穴であり、27〜32Bの高密度モデルでも20〜28 tok/sと苦戦し、40 tok/sの下限を大きく下回る。対照的に、Qwen3.5-122B-A10B（総計122B、アクティブ10B）は1枚の4GPU NVLinkボードで約50 tok/sを達成し、Gemma-4-26B-A4Bは約113 tok/sを記録。すべてのベンチマークはQ8 GGUF、Q4 KVキャッシュ、フラッシュアテンション有効で実行。

ハードウェア構成

最終的な構成：Threadripper Proに12基のV100-SXM2 32GB。2枚のNVLinkボード（各4GPU）と2組の混合ペア。ボードAはGPU{4,5,8,9}、ボードBは{6,7,10,11}を占有。NVLinkペアが{0,1}に、混合ペアが{2,3}にあり、一方のカードは16GB。ボード間のホップはNVLinkではなくPCIe/NUMA経由となり、スループットが低下。全モデルは1枚のボード内に収められている。

2台目のボックスを追加：EPYC 7302P、512GB RAM、4x RTX 3090 + 2x V100-PCIe、小型モデル用にOllamaを実行。

スタックの切り替え：vLLM → llama.cpp

運用者はvLLMを放棄した。なぜなら、実際に使用したいモデルはMoE GGUFであり、Volta上のvLLMでは行き詰まるため——FP8/AWQ/MarlinカーネルはSM75+が必要で、GPTQカーネルはCompute 7.0で動作しない。メインラインのllama.cppに移行したが、最近Gemmaのチャットパーサーのバグが修正され、長いプロンプトが壊れる問題が解決された。

Claude Codeによるオーケストレーション

システムは単一のモデルがチャットに応答するものではない。オーケストレーター（Claude Code駆動）が、法的タスクを複数のローカルモデルに振り分け、各モデルはGPU競合を避けるために自身のボードに固定される。最も重いジョブ（完全な宣誓供述書や申立書、インテークから文書作成まで）では、両ボックスの全16GPUが稼働する：

ワークホース起草： Qwen3.6-35B-A3B（ボードA）
高度な推論＋重要案件の起草： Qwen3.5-122B-A10B（ボードB）
ゲートモデル： {0,1}ペア上の小型モデルが根拠の有無を確認
敵対的レビュアー： {2,3}ペア上で草稿を攻撃
財務/抽出： Gemma-4-26B（Ollama経由で3090上）

これは逐次パイプラインであり、モデルは同時に負荷をかけないが、全16モデルがGPUメモリに常駐する。

実践的な教訓

幻覚： ローカルモデルは自信満々に引用や日付を捏造する。検証機構がすべての引用、日付、ベイツ番号をソース資料と照合し、根拠のない内容をブロックする。敵対的レビュアーが上位で動作。
パイプライン汚染： 証拠バンドルビルダーが自身の過去の出力をクライアント証拠として取り込み、モデルが以前に書いたスロップを「根拠」としてしまう——ある草稿ではRTX 3060をベイツ番号として引用した。ビルダーの入力履歴をスクラブして修正。

軽量タスクでははるかに少ないリソースで済む——証拠の結合やベイツ番号スタンプは純粋にCPU（PyMuPDF + Tesseract）で処理し、単純な要約はGemmaとルーターのみを使用。

📖 完全なソースを読む： r/LocalLLaMA