6.4KドルのローカルLLMサーバー：TCO vs APIコスト比較

r/LocalLLaMAの開発者が、6,406.45ドルのローカルLLMサーバーの詳細なコスト分析を投稿しました。減価償却と電気代を含め、API料金と比較しています。サーバーは中古のAMD MI100 32GB GPUを4台使用し、llama.cppでQwen3.6 27Bを実行。1日あたり2040万の入力トークンと132万の出力トークンを処理します。

ハードウェア仕様

中古MI100 32GB x4: $4,234.82
ASRock EPYCD8-2Tマザーボード: $721.61
1600W 80+ Platinum電源: $497.95
8x8GB DDR4 ECC RDIMM（中古）: $348.79
EPYC 7K62 48コアCPU（中古）: $254.28
CPUクーラー、ケース、ブロワー、ケーブル類: 約$349
合計: $6,406.45

パフォーマンスとコスト比較

OpenRouterでのQwen3.6 27BのAPI料金が入力$0.29/M、出力$3.2/Mの場合、APIの1日あたりのコストは$10.14、年間$3,701.10になります。ローカルサーバーで同じトークンを生成する場合、1日あたりの電気代は$2.11（630W、$0.14/kWh）、年間$770.15です。

減価償却の考慮

著者は現実的な減価償却モデルを使用しています。アクセサリーは100%損失、新品部品は50%損失、中古部品は10%損失とし、一時的なハードウェア減価償却費は$1,442.57です。これは1日後でも5年後でもほぼ同じです。

1年後、ローカルサーバーの総コストは$770（電気代）+ $1,443（減価償却）= $2,213となり、APIの$3,701と比較して$1,488の節約になります。

コーディングプラン比較

参考までに、Z.AIの最上位コーディングプラン（月額$144）では、GLM 4.7で1日あたり約450万入力トークン/20万出力トークンが利用可能です。これをローカルサーバーと同等の容量に換算すると、月額$652.80、年間$7,833.60となり、同じモデルのOpenRouter料金の2倍以上です。

著者は、コーディングプランが必ずしもお得とは限らず、実際に支払っているトークン数を確認するようアドバイスしています。

📖 出典全文: r/LocalLLaMA