vLLM 설정 및 320GB VRAM을 갖춘 10x NVIDIA V100 서버에서의 테스트

하드웨어 구성 및 빌드 노트
개발자가 AMD Threadripper PRO 시스템에 10x Tesla V100 SXM2 32GB GPU(총 320GB VRAM)를 장착한 로컬 AI 서버를 구축했습니다. 이 설정은 NVIDIA 드라이버 580.126.20를 사용하는 Ubuntu 24.04 헤드리스 환경에서 이루어졌습니다. GPU 토폴로지는 두 개의 NVLink 쿼드 메시(GPU 0-3, 4/5/8/9)와 NV6 페어(GPU 6-7)로 구성됩니다.
V100에서 vLLM으로 작동하는 것
- FP16 비양자화:
--dtype half를 사용하는 주요 경로 - bitsandbytes 4비트: FP16에 비해 너무 큰 모델에 작동
- TRITON_ATTN: FlashAttention2가 SM 80+를 요구하므로 자동 폴백
- 텐서/파이프라인 병렬: TP=4 및 TP=4 PP=2 모두 성공적으로 테스트됨
V100에서 작동하지 않는 것
- GPTQ: SM 7.0에서 ExLlamaV2 커널이 손상됨(vLLM 이슈 #2165)
- AWQ: SM 75+ 필요
- FP8: SM 75+ 필요. MiniMax M2.5는 내부적으로 FP8을 사용하므로 처음부터 작동 불가.
- FlashAttention2: SM 80+ 필요
- DeepSeek MLA: Hopper/Blackwell 전용. 전체 DeepSeek V3/R1는 vLLM + V100에서 실행 불가.
빌드 요구사항 및 중요 수정사항
PyTorch 2.11.0+cu126이 필요합니다 — cu126은 V100을 지원하는 마지막 버전으로, cu128+부터는 Volta 지원이 중단됩니다. 소스 컴파일에는 TORCH_CUDA_ARCH_LIST="7.0" 및 MAX_JOBS=20이 필요합니다. 이슈 #36008에 대한 MoE 커널 패치가 필요하며, fused_moe.py에서 B.size(1)을 B.size(0)으로 변경합니다(2줄). PYTHONNOUSERSITE=1은 콘다 환경을 오래된 시스템 패키지로부터 격리시키기 위해 필요합니다.
중요한 NCCL 종속성 수정: pip install -e .은 nvidia-nccl-cu12와 함께 nvidia-nccl-cu13을 가져옵니다. cu13 라이브러리는 런타임에 로드되며, cu126 런타임에 존재하지 않는 CUDA 13 심볼을 참조하여 모든 다중 GPU 실행 시 "NCCL 오류: 처리되지 않은 cuda 오류"를 발생시킵니다. 이 문제를 해결하려면 모든 nvidia-* 패키지를 제거하고 종속성을 신중하게 관리해야 합니다.
📖 전체 소스 읽기: r/LocalLLaMA
👀 See Also

OpenClaw의 기본 메모리를 프로덕션 다중 에이전트 시스템을 위해 Redis와 Qdrant로 교체하기
한 개발자가 멀티 에이전트 설정에서 발생하는 확장성 문제를 해결하기 위해 OpenClaw의 기본 SQLite 메모리를 임시 상태용 Redis와 지속적 벡터 메모리용 Qdrant로 교체했습니다. 이로써 시맨틱 검색, 에이전트 간 공유, 동시 쓰기 기능을 구현했습니다.

클로드 코드 코딩을 위한 안전 계층 설정 가이드
단계별 가이드는 Claude Code를 사용한 코딩에 대해 심층 방어 안전 계층을 구현하는 방법을 보여줍니다. 이는 사전 커밋 훅, CLAUDE.md 파일, 로컬 리뷰 에이전트, GitHub Actions CI, 브랜치 보호를 다룹니다.

8GB VRAM + 32GB RAM에서 ~190k 컨텍스트로 Qwen3.6-35B-A3B 실행 – 설정 및 벤치마크
Reddit 사용자가 RTX 4060(8GB VRAM) + 32GB DDR5에서 TurboQuant 및 특정 플래그를 사용하여 Qwen3.6-35B-A3B GGUF 모델에 작동하는 llama.cpp 구성을 공유하며, 192k 컨텍스트에서 37-51 tok/s를 달성했습니다.

OpenClaw 설정: Docker, Chromium, noVNC를 활용한 인간 참여형 브라우저 자동화
한 개발자가 OpenClaw가 CAPTCHA와 승인을 런타임 중에 처리할 수 있도록 Docker 컨테이너 설정을 공유했습니다. 이 설정은 Chromium과 noVNC를 사용하여 원격 접근을 가능하게 하며, 약 300MB의 RAM과 3초의 콜드 스타트 시간이 필요합니다.