V100 MoE 클러스터: 122B 모델 4GPU로 50 tok/s 달성

Threadripper Pro에서 12x V100 32GB SXM2 클러스터를 운영하는 변호사는 Volta GPU(컴퓨팅 성능 7.0)에서는 MoE 모델만이 실용적인 디코딩 속도를 제공한다고 보고합니다. Dense 모델은 함정입니다. 27-32B Dense 모델조차 20-28 tok/s로 간신히 동작하며, 40 tok/s 기준선에 크게 못 미칩니다. 반면, Qwen3.5-122B-A10B(총 122B, 활성 10B)는 단일 4-GPU NVLink 보드에서 약 50 tok/s를 달성하고, Gemma-4-26B-A4B는 약 113 tok/s를 기록합니다. 모든 벤치마크는 Q8 GGUF, Q4 KV 캐시, flash-attention을 활성화한 상태입니다.

하드웨어 구성

최종 구성: Threadripper Pro에 V100-SXM2 32GB 12개. NVLink 보드 2개(각 4GPU)와 혼합 페어 2개. 보드 A는 GPU {4,5,8,9}, 보드 B는 {6,7,10,11}을 차지합니다. NVLink 페어는 {0,1}, 혼합 페어는 {2,3}에 있으며, 이 중 하나는 16GB 카드입니다. 보드 간 이동은 NVLink 대신 PCIe/NUMA를 통해 이루어져 처리량이 크게 떨어집니다. 모든 모델은 단일 보드 내에 유지됩니다.

두 번째 박스가 추가되었습니다: EPYC 7302P, 512GB RAM, 4x RTX 3090 + 2x V100-PCIe, 소형 모델용 Ollama 실행.

스택 전환: vLLM → llama.cpp

운영자는 vLLM을 포기했습니다. 원하는 모델이 MoE GGUF인데, Volta에서 vLLM은 막다른 길이기 때문입니다. FP8/AWQ/Marlin 커널은 SM75+가 필요하고, GPTQ 커널은 컴퓨팅 7.0에서 작동하지 않습니다. 그는 메인라인 llama.cpp로 전환했으며, 최근 긴 프롬프트를 망가뜨리던 Gemma 채팅 파서 버그가 수정되었습니다.

Claude Code를 이용한 오케스트레이션

이 시스템은 단일 모델이 채팅에 응답하는 방식이 아닙니다. 오케스트레이터(Claude Code 기반)가 여러 로컬 모델에 법률 작업을 라우팅하며, 각 모델은 GPU 경합을 피하기 위해 자체 보드에 고정됩니다. 가장 무거운 작업(전체 진술서 또는 신청서, 접수부터 문서 작성까지)에서는 두 박스의 16개 GPU 모두 활성화됩니다:

주력 문서 작성: 보드 A의 Qwen3.6-35B-A3B
고급 추론 + 고난도 문서 작성: 보드 B의 Qwen3.5-122B-A10B
게이트 모델: {0,1} 페어의 소형 모델이 근거가 있는지 확인
적대적 검토자: {2,3} 페어에서 초안 공격
재무/추출: Ollama를 통한 3090의 Gemma-4-26B

이는 순차적 파이프라인입니다. 모델이 동시에 실행되지는 않지만, 16개 모두 GPU 메모리에 상주합니다.

실용적 교훈

환각: 로컬 모델은 인용과 날짜를 자신있게 조작합니다. 검증기는 모든 인용, 날짜, Bates 번호를 출처 자료와 대조하고 근거 없는 내용을 차단합니다. 적대적 검토자가 추가로 실행됩니다.
파이프라인 오염: 증거 번들 빌더가 이전 출력물을 클라이언트 증거로 수집하여 모델이 이전에 작성한 쓰레기에 "근거"를 두는 문제가 발생했습니다. 한 초안은 RTX 3060을 Bates 번호로 인용했습니다. 빌더의 입력 기록을 정리하여 수정했습니다.

가벼운 작업은 훨씬 적은 자원을 사용합니다. 증거 결합 및 Bates 스탬프는 순수 CPU 작업(PyMuPDF + Tesseract)이며, 간단한 요약은 Gemma와 라우터만 사용합니다.

📖 전체 소스 읽기: r/LocalLLaMA