vLLMのセットアップとテストを、10台のNVIDIA V100サーバー(合計320GB VRAM)で実施

ハードウェア構成と構築メモ
開発者がAMD Threadripper PROシステム上に10基のTesla V100 SXM2 32GB GPU(合計320GB VRAM)を搭載したローカルAIサーバーを構築しました。このセットアップは、NVIDIAドライバー580.126.20を搭載したUbuntu 24.04ヘッドレスを使用しています。GPUトポロジーは、2つのNVLinkクワッドメッシュ(GPU 0-3、4/5/8/9)とNV6ペア(GPU 6-7)で構成されています。
V100でvLLMが動作するもの
- FP16非量子化:
--dtype halfを使用する主要なパス - bitsandbytes 4ビット: FP16には大きすぎるモデルで動作
- TRITON_ATTN: FlashAttention2にはSM 80+が必要なため自動フォールバック
- テンソル/パイプライン並列: TP=4およびTP=4 PP=2の両方を正常にテスト
V100で動作しないもの
- GPTQ: ExLlamaV2カーネルがSM 7.0で破損(vLLM issue #2165)
- AWQ: SM 75+が必要
- FP8: SM 75+が必要。MiniMax M2.5は内部でFP8を使用していますが、動作しません。
- FlashAttention2: SM 80+が必要
- DeepSeek MLA: Hopper/Blackwell専用。完全なDeepSeek V3/R1はvLLM + V100では実行できません。
構築要件と重要な修正
PyTorch 2.11.0+cu126が必要です。cu126はV100をサポートする最後のバージョンであり、cu128以降はVoltaをサポートしません。ソースコンパイルにはTORCH_CUDA_ARCH_LIST="7.0"とMAX_JOBS=20が必要です。issue #36008にはMoEカーネルパッチが必要で、fused_moe.py内のB.size(1)をB.size(0)に変更します(2行)。PYTHONNOUSERSITE=1は、古いシステムパッケージからconda環境を分離するために必要です。
重要なNCCL依存関係の修正: pip install -e .を実行すると、nvidia-nccl-cu12と一緒にnvidia-nccl-cu13がインストールされます。cu13ライブラリは実行時にロードされ、cu126ランタイムに存在しないCUDA 13シンボルを参照するため、マルチGPU起動時に「NCCL error: unhandled cuda error」が発生します。修正には、すべてのnvidia-*パッケージをアンインストールし、依存関係を慎重に管理することが含まれます。
📖 Read the full source: r/LocalLLaMA
👀 See Also

マルチエージェントアーキテクチャ:AIシステムにおけるシングルエージェントの落とし穴を回避する
Redditの投稿では、複数のタスクに単一のエージェントを使用するという一般的なアーキテクチャ上の誤りが指摘されており、これが絶え間ない監視を必要とする脆弱なシステムにつながっています。提案されている解決策は、各エージェントが狭く特定の役割を持つオーケストレーターとスペシャリストのモデルです。

Claude Codeのフォルダ構造チートシート(Redditユーザー提供)
Redditユーザーが、Claude Codeのフォルダ構造に関するチートシートを作成しました。これは、複数のページを行き来する必要のあるドキュメントに何度もつまずいた経験から生まれたもので、.claude/ディレクトリのレイアウト、フックイベント、settings.json、MCP設定、スキル構造、コンテキスト管理の閾値などをカバーしています。

エンドツーエンドLLMスタックトレース:キーストロークからストリーミングトークンまで
ソフトウェアエンジニアが、ClaudeやChatGPTのようなLLMにプロンプトを送信した際にスタックの各レイヤーで正確に何が起こるかを追跡した詳細な技術文書を作成しました。ブラウザナビゲーションの古典的な「what-happens-when」リポジトリに触発され、この文書はLLMチャットインタラクションに対するプロダクションシステムの視点を提供します。

OpenClaw 3.22 アップグレードチェックリスト:痛い目に遭った開発者からの実践的ステップ
開発者がOpenClaw 3.22への具体的なアップグレード手順を共有しています。これには、非推奨の環境変数の確認、バックアップの作成、移行コマンドの実行、プラグイン互換性の検証が含まれます。