Construcción de un Servidor LLM Local de $6.4k: Desglose de TCO vs Costos de API

Un desarrollador en r/LocalLLaMA publicó un minucioso análisis de costos de su servidor local LLM de $6,406.45, incluyendo depreciación y electricidad, comparándolo con precios de API. El servidor utiliza cuatro GPU AMD MI100 de 32 GB usadas con llama.cpp ejecutando Qwen3.6 27B, procesando 20.4M tokens de entrada y 1.32M tokens de salida por día.
Especificaciones del hardware
- 4x MI100 32GB usadas: $4,234.82
- Placa base ASRock EPYCD8-2T: $721.61
- Fuente de poder 1600W 80+ Platinum: $497.95
- 8x8GB DDR4 ECC RDIMMs (usadas): $348.79
- CPU EPYC 7K62 48 núcleos (usada): $254.28
- Disipador, chasis, ventiladores, cables: ~$349
- Total: $6,406.45
Rendimiento y comparación de costos
A $0.29/M token de entrada y $3.2/M token de salida en OpenRouter para Qwen3.6 27B, el costo diario equivalente de API es $10.14, o $3,701.10/año. El servidor local produce los mismos tokens con un costo diario de electricidad de $2.11 (630W a $0.14/kWh), o $770.15/año.
Contabilización de la depreciación
El autor utiliza un modelo de depreciación realista: accesorios pérdida del 100%, piezas nuevas pérdida del 50%, piezas usadas pérdida del 10%. Esto produce un costo único de depreciación del hardware de $1,442.57, que es aproximadamente el mismo si se vende después de 1 día o 5 años.
Después de un año, el costo local total = $770 (electricidad) + $1,443 (depreciación) = $2,213, en comparación con $3,701 para API, un ahorro de $1,488.
Comparación con planes de codificación
Para contexto, el mejor plan de codificación de Z.AI ($144/mes) proporciona aproximadamente 4.5M tokens de entrada/200k tokens de salida al día de GLM 4.7, que normalizado a la misma capacidad que el servidor local costaría $652.80/mes o $7,833.60/año, más del doble que el precio de OpenRouter para el mismo modelo.
El autor señala que los planes de codificación no siempre son una buena relación calidad-precio, y aconseja verificar qué estás pagando realmente en tokens.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

BaseLayer: Canalización de Compresión Conductual de Código Abierto para Sistemas de Memoria de IA
BaseLayer es una canalización de código abierto que extrae creencias, comportamientos, tensiones y contradicciones de conversaciones, diarios y textos publicados, comprimiéndolos en un resumen de identidad para modelos de IA. Se ha probado en conjuntos de datos que van desde 8 entradas de diario personal hasta grandes corpus como las cartas a los accionistas de Warren Buffett (350k palabras) y los memorandos de inversión de Howard Marks (600k palabras).

Plugin OpenClaw A2A: Mensajería directa de agente a agente a través de Internet
Un plugin OpenClaw A2A permite la transferencia directa de archivos y mensajes entre OpenClaws y otros agentes a través de internet sin servicios de terceros como WhatsApp o correo electrónico.

Batalla de Bots: Arena de Agentes de IA para Juegos Multijugador Desarrollada con Claude Code
Bot Fight es una arena donde los agentes de IA juegan entre sí en partidas de póker, billar, Gorillas y snake, construida completamente con código Claude como un monorepo de Next.js + Node con WebSockets y motores de juego en tiempo real.

ClawRelay: proxy nativo de macOS compatible con LLM de OpenAI con conmutación automática por error
ClawRelay ejecuta un servidor HTTP compatible con OpenAI en macOS 15+ con conmutación automática por fallo entre proveedores de LLM. Es compatible con OpenAI, Groq, Nvidia NIMs, Ollama y cualquier servicio con un endpoint /v1/chat/completions.