V100 클러스터 vs MoE: 클로드 코드 오케스트레이션을 활용한 12x SXM2 32GB 빌드

Threadripper Pro에서 12x V100 32GB SXM2 클러스터를 운영하는 변호사는 Volta GPU(컴퓨팅 성능 7.0)에서는 MoE 모델만이 실용적인 디코딩 속도를 제공한다고 보고합니다. Dense 모델은 함정입니다. 27-32B Dense 모델조차 20-28 tok/s로 간신히 동작하며, 40 tok/s 기준선에 크게 못 미칩니다. 반면, Qwen3.5-122B-A10B(총 122B, 활성 10B)는 단일 4-GPU NVLink 보드에서 약 50 tok/s를 달성하고, Gemma-4-26B-A4B는 약 113 tok/s를 기록합니다. 모든 벤치마크는 Q8 GGUF, Q4 KV 캐시, flash-attention을 활성화한 상태입니다.
하드웨어 구성
최종 구성: Threadripper Pro에 V100-SXM2 32GB 12개. NVLink 보드 2개(각 4GPU)와 혼합 페어 2개. 보드 A는 GPU {4,5,8,9}, 보드 B는 {6,7,10,11}을 차지합니다. NVLink 페어는 {0,1}, 혼합 페어는 {2,3}에 있으며, 이 중 하나는 16GB 카드입니다. 보드 간 이동은 NVLink 대신 PCIe/NUMA를 통해 이루어져 처리량이 크게 떨어집니다. 모든 모델은 단일 보드 내에 유지됩니다.
두 번째 박스가 추가되었습니다: EPYC 7302P, 512GB RAM, 4x RTX 3090 + 2x V100-PCIe, 소형 모델용 Ollama 실행.
스택 전환: vLLM → llama.cpp
운영자는 vLLM을 포기했습니다. 원하는 모델이 MoE GGUF인데, Volta에서 vLLM은 막다른 길이기 때문입니다. FP8/AWQ/Marlin 커널은 SM75+가 필요하고, GPTQ 커널은 컴퓨팅 7.0에서 작동하지 않습니다. 그는 메인라인 llama.cpp로 전환했으며, 최근 긴 프롬프트를 망가뜨리던 Gemma 채팅 파서 버그가 수정되었습니다.
Claude Code를 이용한 오케스트레이션
이 시스템은 단일 모델이 채팅에 응답하는 방식이 아닙니다. 오케스트레이터(Claude Code 기반)가 여러 로컬 모델에 법률 작업을 라우팅하며, 각 모델은 GPU 경합을 피하기 위해 자체 보드에 고정됩니다. 가장 무거운 작업(전체 진술서 또는 신청서, 접수부터 문서 작성까지)에서는 두 박스의 16개 GPU 모두 활성화됩니다:
- 주력 문서 작성: 보드 A의 Qwen3.6-35B-A3B
- 고급 추론 + 고난도 문서 작성: 보드 B의 Qwen3.5-122B-A10B
- 게이트 모델: {0,1} 페어의 소형 모델이 근거가 있는지 확인
- 적대적 검토자: {2,3} 페어에서 초안 공격
- 재무/추출: Ollama를 통한 3090의 Gemma-4-26B
이는 순차적 파이프라인입니다. 모델이 동시에 실행되지는 않지만, 16개 모두 GPU 메모리에 상주합니다.
실용적 교훈
- 환각: 로컬 모델은 인용과 날짜를 자신있게 조작합니다. 검증기는 모든 인용, 날짜, Bates 번호를 출처 자료와 대조하고 근거 없는 내용을 차단합니다. 적대적 검토자가 추가로 실행됩니다.
- 파이프라인 오염: 증거 번들 빌더가 이전 출력물을 클라이언트 증거로 수집하여 모델이 이전에 작성한 쓰레기에 "근거"를 두는 문제가 발생했습니다. 한 초안은 RTX 3060을 Bates 번호로 인용했습니다. 빌더의 입력 기록을 정리하여 수정했습니다.
가벼운 작업은 훨씬 적은 자원을 사용합니다. 증거 결합 및 Bates 스탬프는 순수 CPU 작업(PyMuPDF + Tesseract)이며, 간단한 요약은 Gemma와 라우터만 사용합니다.
📖 전체 소스 읽기: r/LocalLLaMA
👀 See Also

기업들이 클라이언트 커뮤니케이션 자동화를 위해 OpenClaw를 활용하는 방법
OpenClaw는 프리랜서들이 WhatsApp과 이메일에서 개인 비서로 사용하여 요금, 정책, 가용성에 대한 고객 문의를 처리합니다. 레스토랑과 같은 지역 비즈니스는 직원이 부재할 때 메뉴, 영업 시간, 예약에 대한 질문에 답변하기 위해 이를 사용합니다.

클로드 AI로 구축한 개인 재무 대시보드: Google Sheets 백엔드와 함께 자체 호스팅
한 개발자가 Claude AI를 사용하여 주식, 뮤추얼 펀드, 실물 금, 정기예금 등 다양한 투자 자산을 통합하는 풀스택 개인 재무 대시보드를 구축했습니다. 이 앱은 여분의 PC에서 실행되며, Cloudflare Tunnel을 통해 서비스되며, 모든 데이터는 사용자 본인의 Google 스프레드시트에 저장됩니다.

비전문가가 휴대폰으로 Claude AI를 이용해 웹사이트를 구축하고 배포합니다
코딩 경험이 없는 한 사용자가 Claude AI를 사용하여 휴대폰으로 1시간 만에 완전한 웹사이트를 구축하고 배포했습니다. 그들은 일반 언어로 요구사항을 설명하고 Claude가 사양과 코드를 생성하도록 하여 만우절 장난을 위한 가짜 Portal 3 로딩 화면을 만들었습니다.

개발자가 Claude로 부부 상담 앱을 제작하고 프롬프트 엔지니어링 인사이트 공유합니다
한 개발자가 TherapAI(therapai.health)라는 커플용 프로그레시브 웹 앱을 만들었습니다. 이 앱에서 각 파트너는 Claude Sonnet으로 구동되는 개인 AI 동반자를 얻어 감정을 처리하고 준비가 되면 공유할 수 있습니다. 개발자는 Claude가 챗봇이 아닌 실제 치료사처럼 느껴지도록 만드는 데 도움이 된 다섯 가지 구체적인 프롬프트 엔지니어링 기법을 공유했습니다.