Construindo um servidor LLM local de $6,4k: Análise de TCO vs Custos de API

Um desenvolvedor no r/LocalLLaMA publicou uma análise de custos completa de seu servidor LLM local de $6.406,45, incluindo depreciação e eletricidade, comparando-o com preços de API. O servidor usa quatro GPUs AMD MI100 32GB usadas com llama.cpp rodando Qwen3.6 27B, processando 20,4M tokens de entrada e 1,32M tokens de saída por dia.
Especificações de Hardware
- 4x MI100 32GB usados: $4.234,82
- Placa-mãe ASRock EPYCD8-2T: $721,61
- Fonte 1600W 80+ Platinum: $497,95
- 8x8GB DDR4 ECC RDIMM (usados): $348,79
- CPU EPYC 7K62 48-core (usado): $254,28
- Cooler de CPU, gabinete, ventoinhas, cabos: ~$349
- Total: $6.406,45
Comparação de Desempenho e Custos
A $0,29/M entrada e $3,2/M saída no OpenRouter para Qwen3.6 27B, o custo diário equivalente da API é $10,14, ou $3.701,10/ano. O servidor local produz os mesmos tokens com um custo diário de eletricidade de $2,11 (630W a $0,14/kWh), ou $770,15/ano.
Contabilizando a Depreciação
O autor usa um modelo de depreciação realista: acessórios com perda de 100%, peças novas com perda de 50%, peças usadas com perda de 10%. Isso resulta em um custo único de depreciação de hardware de $1.442,57, que é praticamente o mesmo se vendido após 1 dia ou 5 anos.
Após um ano, o custo local total = $770 (eletricidade) + $1.443 (depreciação) = $2.213, comparado a $3.701 da API — uma economia de $1.488.
Comparação com Planos de Codificação
Para contexto, o principal plano de codificação da Z.AI ($144/mês) oferece cerca de 4,5M entrada/200k saída tokens/dia do GLM 4.7, que normalizado para a mesma capacidade do servidor local custaria $652,80/mês ou $7.833,60/ano — mais que o dobro do preço do OpenRouter para o mesmo modelo.
O autor observa que planos de codificação nem sempre são um bom custo-benefício e aconselha verificar o que você está realmente pagando em tokens.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Atlarix v5.1 adiciona camadas de nuvem mantendo o suporte local à codificação com IA
A Atlarix v5.1.0 introduz os níveis de nuvem Compass para uso imediato, mantendo o suporte completo ao Ollama e LM Studio. O IDE utiliza um gráfico SQLite persistente chamado Blueprint para fornecer contexto preciso aos modelos locais.

Sistema de Bandido Contextual Auto-Hospedado em Rust: Syntra & Lycan para Sistemas de Decisão Adaptativos
Dois projetos open-source: Lycan (linguagem de execução de grafos com nós de estratégia e pesos aprendidos) e Syntra (aplicativo Docker/API que serve cápsulas Lycan compiladas). Encontramos bugs no pipeline de dados antes de bugs em tempo de execução ao testar em um produto de debate sobre ações com IA.

cowork-session-sync v1.0.0 fornece continuidade de sessão para o Claude Cowork
cowork-session-sync v1.0.0 é uma ferramenta que mantém a continuidade da sessão para o Claude Cowork, arquivando transcrições brutas, destilando-as para Markdown e permitindo a inicialização com uma frase usando 'catchup-bunny' para restaurar o contexto completo.

iai-mcp: Daemon local oferece ao Claude memória persistente entre sessões com 99% de recall
iai-mcp é um daemon local de código aberto que captura cada conversa do Claude, organiza em três níveis de memória e fornece contexto de volta em novas sessões. Obtém recall verbatim >99%, recuperação em menos de 100ms e custo de início de sessão inferior a 3.000 tokens.