vLLM 설정 및 10x V100 320GB VRAM에서 테스트

하드웨어 구성 및 빌드 노트

개발자가 AMD Threadripper PRO 시스템에 10x Tesla V100 SXM2 32GB GPU(총 320GB VRAM)를 장착한 로컬 AI 서버를 구축했습니다. 이 설정은 NVIDIA 드라이버 580.126.20를 사용하는 Ubuntu 24.04 헤드리스 환경에서 이루어졌습니다. GPU 토폴로지는 두 개의 NVLink 쿼드 메시(GPU 0-3, 4/5/8/9)와 NV6 페어(GPU 6-7)로 구성됩니다.

V100에서 vLLM으로 작동하는 것

FP16 비양자화: --dtype half를 사용하는 주요 경로
bitsandbytes 4비트: FP16에 비해 너무 큰 모델에 작동
TRITON_ATTN: FlashAttention2가 SM 80+를 요구하므로 자동 폴백
텐서/파이프라인 병렬: TP=4 및 TP=4 PP=2 모두 성공적으로 테스트됨

V100에서 작동하지 않는 것

GPTQ: SM 7.0에서 ExLlamaV2 커널이 손상됨(vLLM 이슈 #2165)
AWQ: SM 75+ 필요
FP8: SM 75+ 필요. MiniMax M2.5는 내부적으로 FP8을 사용하므로 처음부터 작동 불가.
FlashAttention2: SM 80+ 필요
DeepSeek MLA: Hopper/Blackwell 전용. 전체 DeepSeek V3/R1는 vLLM + V100에서 실행 불가.

빌드 요구사항 및 중요 수정사항

PyTorch 2.11.0+cu126이 필요합니다 — cu126은 V100을 지원하는 마지막 버전으로, cu128+부터는 Volta 지원이 중단됩니다. 소스 컴파일에는 TORCH_CUDA_ARCH_LIST="7.0" 및 MAX_JOBS=20이 필요합니다. 이슈 #36008에 대한 MoE 커널 패치가 필요하며, fused_moe.py에서 B.size(1)을 B.size(0)으로 변경합니다(2줄). PYTHONNOUSERSITE=1은 콘다 환경을 오래된 시스템 패키지로부터 격리시키기 위해 필요합니다.

중요한 NCCL 종속성 수정: pip install -e .은 nvidia-nccl-cu12와 함께 nvidia-nccl-cu13을 가져옵니다. cu13 라이브러리는 런타임에 로드되며, cu126 런타임에 존재하지 않는 CUDA 13 심볼을 참조하여 모든 다중 GPU 실행 시 "NCCL 오류: 처리되지 않은 cuda 오류"를 발생시킵니다. 이 문제를 해결하려면 모든 nvidia-* 패키지를 제거하고 종속성을 신중하게 관리해야 합니다.

📖 전체 소스 읽기: r/LocalLLaMA