Servidor LLM Local de $6,4k: Custo Total vs API

Um desenvolvedor no r/LocalLLaMA publicou uma análise de custos completa de seu servidor LLM local de $6.406,45, incluindo depreciação e eletricidade, comparando-o com preços de API. O servidor usa quatro GPUs AMD MI100 32GB usadas com llama.cpp rodando Qwen3.6 27B, processando 20,4M tokens de entrada e 1,32M tokens de saída por dia.

Especificações de Hardware

4x MI100 32GB usados: $4.234,82
Placa-mãe ASRock EPYCD8-2T: $721,61
Fonte 1600W 80+ Platinum: $497,95
8x8GB DDR4 ECC RDIMM (usados): $348,79
CPU EPYC 7K62 48-core (usado): $254,28
Cooler de CPU, gabinete, ventoinhas, cabos: ~$349
Total: $6.406,45

Comparação de Desempenho e Custos

A $0,29/M entrada e $3,2/M saída no OpenRouter para Qwen3.6 27B, o custo diário equivalente da API é $10,14, ou $3.701,10/ano. O servidor local produz os mesmos tokens com um custo diário de eletricidade de $2,11 (630W a $0,14/kWh), ou $770,15/ano.

Contabilizando a Depreciação

O autor usa um modelo de depreciação realista: acessórios com perda de 100%, peças novas com perda de 50%, peças usadas com perda de 10%. Isso resulta em um custo único de depreciação de hardware de $1.442,57, que é praticamente o mesmo se vendido após 1 dia ou 5 anos.

Após um ano, o custo local total = $770 (eletricidade) + $1.443 (depreciação) = $2.213, comparado a $3.701 da API — uma economia de $1.488.

Comparação com Planos de Codificação

Para contexto, o principal plano de codificação da Z.AI ($144/mês) oferece cerca de 4,5M entrada/200k saída tokens/dia do GLM 4.7, que normalizado para a mesma capacidade do servidor local custaria $652,80/mês ou $7.833,60/ano — mais que o dobro do preço do OpenRouter para o mesmo modelo.

O autor observa que planos de codificação nem sempre são um bom custo-benefício e aconselha verificar o que você está realmente pagando em tokens.

📖 Leia a fonte completa: r/LocalLLaMA

Construindo um servidor LLM local de $6,4k: Análise de TCO vs Custos de API

Especificações de Hardware

Comparação de Desempenho e Custos

Contabilizando a Depreciação

Comparação com Planos de Codificação

👀 See Also

Elodin disponibiliza em código aberto um Arreio de IA com Simulação em Tempo Real do Betaflight para Participantes do AI Grand Prix

Brackish: Deixe Duas Instâncias do Claude Code Negociarem um Contrato de API via OpenAPI 3.1

OpenEvol: Pipeline de Autoaperfeiçoamento Offline para LLMs Usando Histórico de Conversas

Explorando o Sinal de Agência Oculta (Â) de LLMs para Melhor Chamada de Ferramentas