Сборка локального сервера LLM за $6.4K: Анализ TCO в сравнении с затратами на API

Разработчик на r/LocalLLaMA опубликовал подробный анализ стоимости своего локального LLM-сервера за $6 406,45, включая амортизацию и электроэнергию, сравнив его с ценами API. Сервер использует четыре бывших в употреблении GPU AMD MI100 32 ГБ с llama.cpp, запускающим Qwen3.6 27B, обрабатывая 20,4M входных токенов и 1,32M выходных токенов в день.
Характеристики оборудования
- 4x MI100 32 ГБ (б/у): $4 234,82
- Материнская плата ASRock EPYCD8-2T: $721,61
- Блок питания 1600 Вт 80+ Platinum: $497,95
- 8x8 ГБ DDR4 ECC RDIMM (б/у): $348,79
- Процессор EPYC 7K62 48 ядер (б/у): $254,28
- Кулер, корпус, вентиляторы, кабели: ~$349
- Итого: $6 406,45
Сравнение производительности и стоимости
При цене $0,29/M входных и $3,2/M выходных токенов на OpenRouter для Qwen3.6 27B, ежедневная стоимость API составляет $10,14, или $3 701,10 в год. Локальный сервер производит те же токены при ежедневной стоимости электроэнергии $2,11 (630 Вт при $0,14/кВт·ч), или $770,15 в год.
Учёт амортизации
Автор использует реалистичную модель амортизации: аксессуары — 100% потери, новые детали — 50% потери, б/у детали — 10% потери. Это даёт единовременные затраты на амортизацию в $1 442,57, которые примерно одинаковы независимо от того, продаётся ли оборудование через 1 день или через 5 лет.
Через один год общая стоимость локального сервера = $770 (электричество) + $1 443 (амортизация) = $2 213, по сравнению с $3 701 за API — экономия $1 488.
Сравнение тарифов для программирования
Для контекста: лучший тариф Z.AI для программирования ($144/месяц) предоставляет около 4,5M входных/200k выходных токенов в день для GLM 4.7, что при пересчёте на ту же мощность, что и локальный сервер, обошлось бы в $652,80/месяц или $7 833,60/год — более чем вдвое дороже OpenRouter для той же модели.
Автор отмечает, что тарифы для программирования не всегда выгодны, и советует проверять, за что вы на самом деле платите в токенах.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Team Memory MCP: Открытый исходный код общей памяти для Claude Code с байесовской оценкой уверенности
Team Memory MCP — это инструмент с открытым исходным кодом, который предоставляет общую память для команды в Claude Code с байесовской оценкой уверенности. Он использует модель Бета-Бернулли для ранжирования паттернов, включает временное затухание с периодом полураспада 90 дней и может быть добавлен в Claude Code одной командой.

Зора: Автономный ИИ-агент с безопасностью по умолчанию и локальной памятью
Zora — это ИИ-агент, который по умолчанию работает полностью офлайн через Ollama, начинает работу с нулевыми правами доступа и сохраняет постоянную память между сеансами. Он решает проблемы безопасности и стоимости, наблюдаемые в других агентах.

Расширение CtxSnap для VS Code отслеживает изменения файлов для сессий Claude.
CtxSnap — это расширение для VS Code, которое отслеживает изменения файлов с момента вашей последней сессии с Claude и упаковывает их в готовый для вставки блок передачи с содержимым файлов и индикатором бюджета токенов, настроенным на контекстное окно Claude в 200k токенов.

Движок вывода Atlas стал открытым: чистый Rust + CUDA, более 100 токенов/с на DGX Spark
Atlas теперь с открытым исходным кодом — Rust + CUDA inference engine, достигающий пиковой производительности 130 ток/с на Qwen3.5-35B (NVFP4) на одном DGX Spark, без Python runtime и с холодным стартом менее 2 минут.