6.400 € Lokaler LLM-Server: TCO vs. API-Kosten

Ein Entwickler auf r/LocalLLaMA hat eine gründliche Kostenanalyse seines lokalen LLM-Servers für 6.406,45 $ veröffentlicht, inklusive Abschreibung und Stromkosten, im Vergleich zu API-Preisen. Der Server verwendet vier gebrauchte AMD MI100 32GB GPUs mit llama.cpp, auf dem Qwen3.6 27B läuft, und verarbeitet täglich 20,4 Mio. Input-Tokens und 1,32 Mio. Output-Tokens.

Hardware-Spezifikationen

4x gebrauchte MI100 32GB: 4.234,82 $
ASRock EPYCD8-2T Mainboard: 721,61 $
1600W 80+ Platinum Netzteil: 497,95 $
8x8GB DDR4 ECC RDIMMs (gebraucht): 348,79 $
EPYC 7K62 48-Kern CPU (gebraucht): 254,28 $
CPU-Kühler, Gehäuse, Lüfter, Kabel: ~349 $
Gesamt: 6.406,45 $

Leistungs- und Kostenvergleich

Bei 0,29 $/M Input und 3,2 $/M Output auf OpenRouter für Qwen3.6 27B betragen die täglichen API-Kosten 10,14 $ bzw. 3.701,10 $/Jahr. Der lokale Server produziert die gleichen Tokens bei täglichen Stromkosten von 2,11 $ (630W bei 0,14 $/kWh), also 770,15 $/Jahr.

Abschreibungsrechnung

Der Autor verwendet ein realistisches Abschreibungsmodell: Zubehör 100% Verlust, neue Teile 50% Verlust, gebrauchte Teile 10% Verlust. Dies ergibt einmalige Hardware-Abschreibungskosten von 1.442,57 $, die ungefähr gleich sind, egal ob nach 1 Tag oder 5 Jahren verkauft.

Nach einem Jahr betragen die lokalen Gesamtkosten = 770 $ (Strom) + 1.443 $ (Abschreibung) = 2.213 $, verglichen mit 3.701 $ für die API – eine Ersparnis von 1.488 $.

Vergleich mit Coding-Plänen

Zum Vergleich: Z.AI's Top-Coding-Plan (144 $/Monat) bietet etwa 4,5 Mio. Input/200k Output-Tokens/Tag von GLM 4.7, was normalisiert auf die gleiche Kapazität wie der lokale Server 652,80 $/Monat oder 7.833,60 $/Jahr kosten würde – mehr als das Doppelte des OpenRouter-Preises für das gleiche Modell.

Der Autor merkt an, dass Coding-Pläne nicht immer ein gutes Preis-Leistungs-Verhältnis bieten, und rät, zu prüfen, was man tatsächlich für die Tokens bezahlt.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Ein 6.400 Dollar lokaler LLM-Server: TCO-Vergleich vs. API-Kosten

Hardware-Spezifikationen

Leistungs- und Kostenvergleich

Abschreibungsrechnung

Vergleich mit Coding-Plänen

👀 Siehe auch

Einführung von Lean Collab: Ein Multi-Agenten-Orchestrator für langanhaltende LLM-Aufgaben.

Unsloth und NVIDIA arbeiten zusammen, um das LLM-Training um etwa 25 % zu beschleunigen

Vergleich von 14 Claw KI-Agenten-Varianten in 10 Kategorien

WebClaw: Open-Source MCP-Server für Web-Extraktion mit Claude