$6,400 로컬 LLM 서버 구축: TCO 분석 vs API 비용

r/LocalLLaMA의 한 개발자가 $6,406.45 규모의 로컬 LLM 서버에 대한 비용 분석을 게시했습니다. 감가상각과 전기료를 포함해 API 가격과 비교한 내용입니다. 서버는 중고 AMD MI100 32GB GPU 4개에 llama.cpp로 Qwen3.6 27B를 구동하며, 하루 2,040만 입력 토큰과 132만 출력 토큰을 처리합니다.
하드웨어 사양
- MI100 32GB (중고, 4개): $4,234.82
- ASRock EPYCD8-2T 메인보드: $721.61
- 1600W 80+ 플래티넘 파워: $497.95
- DDR4 ECC RDIMM 8GB x8 (중고): $348.79
- EPYC 7K62 48코어 CPU (중고): $254.28
- CPU 쿨러, 케이스, 블로어, 케이블: 약 $349
- 합계: $6,406.45
성능 및 비용 비교
OpenRouter에서 Qwen3.6 27B 기준 $0.29/백만 입력 토큰, $3.2/백만 출력 토큰을 적용하면, 동일 API의 일일 비용은 $10.14, 연간 $3,701.10입니다. 반면 로컬 서버의 동일 토큰 처리 시 일일 전기료 $2.11 (630W, $0.14/kWh)로 연간 $770.15입니다.
감가상각
작성자는 현실적인 감가상각 모델을 적용했습니다: 액세서리 100% 손실, 새 부품 50% 손실, 중고 부품 10% 손실. 이에 따른 일회성 하드웨어 감가상각 비용은 $1,442.57로, 1일 후든 5년 후든 판매 시 동일합니다.
1년 후 로컬 비용은 $770 (전기료) + $1,443 (감가상각) = $2,213으로, API 비용 $3,701 대비 $1,488 절감됩니다.
코딩 요금제 비교
참고로 Z.AI의 최상위 코딩 요금제($144/월)는 하루 약 450만 입력/20만 출력 토큰을 제공합니다. 동일 용량으로 환산하면 월 $652.80, 연간 $7,833.60으로 OpenRouter 가격의 두 배 이상입니다.
작성자는 코딩 요금제가 항상 좋은 가치는 아니며, 실제로 토큰당 얼마를 지불하는지 확인하라고 조언합니다.
📖 전체 소스 읽기: r/LocalLLaMA
👀 See Also

비프로스트 AI 게이트웨이: 오픈소스 도구로 AI 인프라 격차 해소
Bifrost는 Go 기반의 오픈소스 LLM 게이트웨이로, 제공자 간 자동 장애 조치, 요청을 거부하는 예산 한도, 감사 로깅 및 평가를 위한 훅을 제공합니다. 벤치마크에 따르면 높은 처리량에서 LiteLLM보다 약 50배 빠릅니다.

Memctl: AI 코딩 에이전트를 위한 영구 메모리용 오픈 소스 MCP 서버
Memctl은 세션, 머신, IDE를 넘어 AI 코딩 에이전트에게 지속적인 메모리를 제공하는 오픈 소스 MCP 서버입니다. 주로 Claude Code로 2주 만에 구축되었으며, 프로젝트 컨텍스트를 저장하고 후속 세션에서 이를 제공합니다.

OpenClaw 스킬은 로컬 ComfyUI 지원과 큐레이팅된 프롬프트를 통한 AI 이미지 생성 기능을 추가합니다.
새로운 OpenClaw 스킬이 터미널 내에서 직접 AI 이미지 생성 기능을 제공하며, 1,300개 이상의 큐레이팅된 프롬프트, 로컬 ComfyUI 통합 및 프롬프트 향상 워크플로우를 특징으로 합니다.

코드 결정: 오픈소스 클로드 플러그인이 기술적 결정을 포착합니다
Code Decisions는 Claude Code용 오픈 소스 플러그인으로, 대화에서 기술적 결정 사항을 캡처하고 영향을 받는 파일이 편집될 때 이를 표면화합니다. 이 플러그인은 결정 사항을 .claude/decisions/에 마크다운 파일로 작성하며, 관리되는 파일을 가리키는 affects 필드를 포함합니다.