V100クラスター対MoE:Claude Codeオーケストレーションによる12x SXM2 32GBビルド

✍️ OpenClawRadar📅 公開日: June 8, 2026🔗 Source
V100クラスター対MoE:Claude Codeオーケストレーションによる12x SXM2 32GBビルド
Ad

Threadripper Pro上で12基のV100 32GB SXM2クラスターを運用する弁護士によると、Volta GPU(Compute Capability 7.0)ではMoEモデルのみが実用的なデコード速度を発揮する。高密度モデルは落とし穴であり、27〜32Bの高密度モデルでも20〜28 tok/sと苦戦し、40 tok/sの下限を大きく下回る。対照的に、Qwen3.5-122B-A10B(総計122B、アクティブ10B)は1枚の4GPU NVLinkボードで約50 tok/sを達成し、Gemma-4-26B-A4Bは約113 tok/sを記録。すべてのベンチマークはQ8 GGUF、Q4 KVキャッシュ、フラッシュアテンション有効で実行。

ハードウェア構成

最終的な構成:Threadripper Proに12基のV100-SXM2 32GB。2枚のNVLinkボード(各4GPU)と2組の混合ペア。ボードAはGPU{4,5,8,9}、ボードBは{6,7,10,11}を占有。NVLinkペアが{0,1}に、混合ペアが{2,3}にあり、一方のカードは16GB。ボード間のホップはNVLinkではなくPCIe/NUMA経由となり、スループットが低下。全モデルは1枚のボード内に収められている。

2台目のボックスを追加:EPYC 7302P、512GB RAM、4x RTX 3090 + 2x V100-PCIe、小型モデル用にOllamaを実行。

スタックの切り替え:vLLM → llama.cpp

運用者はvLLMを放棄した。なぜなら、実際に使用したいモデルはMoE GGUFであり、Volta上のvLLMでは行き詰まるため——FP8/AWQ/MarlinカーネルはSM75+が必要で、GPTQカーネルはCompute 7.0で動作しない。メインラインのllama.cppに移行したが、最近Gemmaのチャットパーサーのバグが修正され、長いプロンプトが壊れる問題が解決された。

Ad

Claude Codeによるオーケストレーション

システムは単一のモデルがチャットに応答するものではない。オーケストレーター(Claude Code駆動)が、法的タスクを複数のローカルモデルに振り分け、各モデルはGPU競合を避けるために自身のボードに固定される。最も重いジョブ(完全な宣誓供述書や申立書、インテークから文書作成まで)では、両ボックスの全16GPUが稼働する:

  • ワークホース起草: Qwen3.6-35B-A3B(ボードA)
  • 高度な推論+重要案件の起草: Qwen3.5-122B-A10B(ボードB)
  • ゲートモデル: {0,1}ペア上の小型モデルが根拠の有無を確認
  • 敵対的レビュアー: {2,3}ペア上で草稿を攻撃
  • 財務/抽出: Gemma-4-26B(Ollama経由で3090上)

これは逐次パイプラインであり、モデルは同時に負荷をかけないが、全16モデルがGPUメモリに常駐する。

実践的な教訓

  • 幻覚: ローカルモデルは自信満々に引用や日付を捏造する。検証機構がすべての引用、日付、ベイツ番号をソース資料と照合し、根拠のない内容をブロックする。敵対的レビュアーが上位で動作。
  • パイプライン汚染: 証拠バンドルビルダーが自身の過去の出力をクライアント証拠として取り込み、モデルが以前に書いたスロップを「根拠」としてしまう——ある草稿ではRTX 3060をベイツ番号として引用した。ビルダーの入力履歴をスクラブして修正。

軽量タスクでははるかに少ないリソースで済む——証拠の結合やベイツ番号スタンプは純粋にCPU(PyMuPDF + Tesseract)で処理し、単純な要約はGemmaとルーターのみを使用。

📖 完全なソースを読む: r/LocalLLaMA

Ad

👀 See Also

OpenClawユーザー、銀行とクレジットカード明細書の要約スキルを構築
Use Cases

OpenClawユーザー、銀行とクレジットカード明細書の要約スキルを構築

新しいOpenClawユーザーが、強化されたサーバー上でツールをセルフホストし、2つのカスタムスキルを開発しました。1つは銀行取引明細書の要約と分類を行うもので、もう1つはクレジットカード明細書の要約と分類、中断検出を行うものです。これらのスキルは新しい明細書が現れると自動的にレポートを生成し、Telegram通知を送信します。

OpenClawRadar
Claude Codeを24時間365日バックグラウンドエージェントとして稼働させてみた — 2週間の経験談
Use Cases

Claude Codeを24時間365日バックグラウンドエージェントとして稼働させてみた — 2週間の経験談

開発者が、VPS上でClaude Codeを継続的に実行し、コードレビュー、リファクタリング、デプロイメントを睡眠中に処理するためのセットアップを共有しています。

ALTWORLD:LLMとデータベースを分離してAI健忘症を解決する持続型ライフシミュレーションアーキテクチャ
Use Cases

ALTWORLD:LLMとデータベースを分離してAI健忘症を解決する持続型ライフシミュレーションアーキテクチャ

ALTWORLDは、PostgreSQLテーブルとJSONブロブに正規の実行状態を保存し、状態変化後にのみ物語テキストを生成することで、コンテキストウィンドウ問題に対処するステートフルシミュレーションゲームです。アーキテクチャはNext.js App Router、Prisma、PostgreSQLを使用し、シミュレーションロジックとAIナレーションを厳密に分離しています。

OpenClawRadar
ユーザーがOpenClawとAIを活用して4日間でチェスコーチングウェブサイトを構築
Use Cases

ユーザーがOpenClawとAIを活用して4日間でチェスコーチングウェブサイトを構築

プログラミング経験のないユーザーが、OpenClawとLoveableを使用して、わずか4日間でElucidateChessというチェス指導ウェブサイトを作成しました。このサイトでは、生徒が手の思考プロセスを明確に説明することを求め、AIがその回答を評価します。

OpenClawRadar