Ein 6.400 Dollar lokaler LLM-Server: TCO-Vergleich vs. API-Kosten

✍️ OpenClawRadar📅 Veröffentlicht: 31. Mai 2026🔗 Source
Ein 6.400 Dollar lokaler LLM-Server: TCO-Vergleich vs. API-Kosten
Ad

Ein Entwickler auf r/LocalLLaMA hat eine gründliche Kostenanalyse seines lokalen LLM-Servers für 6.406,45 $ veröffentlicht, inklusive Abschreibung und Stromkosten, im Vergleich zu API-Preisen. Der Server verwendet vier gebrauchte AMD MI100 32GB GPUs mit llama.cpp, auf dem Qwen3.6 27B läuft, und verarbeitet täglich 20,4 Mio. Input-Tokens und 1,32 Mio. Output-Tokens.

Hardware-Spezifikationen

  • 4x gebrauchte MI100 32GB: 4.234,82 $
  • ASRock EPYCD8-2T Mainboard: 721,61 $
  • 1600W 80+ Platinum Netzteil: 497,95 $
  • 8x8GB DDR4 ECC RDIMMs (gebraucht): 348,79 $
  • EPYC 7K62 48-Kern CPU (gebraucht): 254,28 $
  • CPU-Kühler, Gehäuse, Lüfter, Kabel: ~349 $
  • Gesamt: 6.406,45 $
Ad

Leistungs- und Kostenvergleich

Bei 0,29 $/M Input und 3,2 $/M Output auf OpenRouter für Qwen3.6 27B betragen die täglichen API-Kosten 10,14 $ bzw. 3.701,10 $/Jahr. Der lokale Server produziert die gleichen Tokens bei täglichen Stromkosten von 2,11 $ (630W bei 0,14 $/kWh), also 770,15 $/Jahr.

Abschreibungsrechnung

Der Autor verwendet ein realistisches Abschreibungsmodell: Zubehör 100% Verlust, neue Teile 50% Verlust, gebrauchte Teile 10% Verlust. Dies ergibt einmalige Hardware-Abschreibungskosten von 1.442,57 $, die ungefähr gleich sind, egal ob nach 1 Tag oder 5 Jahren verkauft.

Nach einem Jahr betragen die lokalen Gesamtkosten = 770 $ (Strom) + 1.443 $ (Abschreibung) = 2.213 $, verglichen mit 3.701 $ für die API – eine Ersparnis von 1.488 $.

Vergleich mit Coding-Plänen

Zum Vergleich: Z.AI's Top-Coding-Plan (144 $/Monat) bietet etwa 4,5 Mio. Input/200k Output-Tokens/Tag von GLM 4.7, was normalisiert auf die gleiche Kapazität wie der lokale Server 652,80 $/Monat oder 7.833,60 $/Jahr kosten würde – mehr als das Doppelte des OpenRouter-Preises für das gleiche Modell.

Der Autor merkt an, dass Coding-Pläne nicht immer ein gutes Preis-Leistungs-Verhältnis bieten, und rät, zu prüfen, was man tatsächlich für die Tokens bezahlt.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Ad

👀 Siehe auch

SimSense MCP Connector verleiht Claude-Artefakten permanente URLs mit persistentem Zustand
Werkzeuge

SimSense MCP Connector verleiht Claude-Artefakten permanente URLs mit persistentem Zustand

SimSense ist ein MCP-Connector, der es Claude ermöglicht, generierte HTML/JS-Artefakte auf permanente URLs namens 'Sims' mit dauerhafter Zustandsspeicherung bereitzustellen. Das Tool behebt die Einschränkung, dass Claudes Ausgaben verschwinden, wenn Sie das Chatfenster schließen.

OpenClawRadar
Codeset verbessert Codierungsagenten mit repositoriums-spezifischem Kontext aus dem Git-Verlauf.
Werkzeuge

Codeset verbessert Codierungsagenten mit repositoriums-spezifischem Kontext aus dem Git-Verlauf.

Codeset generiert statische Dateien aus dem Git-Verlauf, die Kontextinformationen wie frühere Fehler, Ursachen und Co-Change-Beziehungen liefern. Tests zeigten eine Verbesserung von 5,3 Prozentpunkten bei codeset-gym-python und 2 Prozentpunkten bei SWE-Bench Pro mit OpenAI Codex.

OpenClawRadar
Echtzeit-Desktop-Overlay zur Überwachung der Nutzungslimits von Claude Code
Werkzeuge

Echtzeit-Desktop-Overlay zur Überwachung der Nutzungslimits von Claude Code

Das Open-Source-Desktop-Overlay zeigt die Nutzungslimits von Claude Code in Echtzeit an, wodurch die wiederholte Eingabe von '/usage' entfällt.

OpenClawRadar
🦀
Werkzeuge

Zusammenarbeiten: Eine Claude-Code-Fähigkeit für strukturiertes, asynchrones Dokumentenschreiben mit Multi-Agent-Übergaben

Eine Claude Code-Fähigkeit namens ‚collaborate‘ ermöglicht das Schreiben von Dokumenten mit mehreren Mitwirkenden, wobei jeder Teilnehmer eine verständliche Zusammenfassung von Claude über vorherige Änderungen, die zugrundeliegenden Überlegungen und die nächsten Aufgaben erhält, mit Unterstützung für parallele Abschnitte, strukturierte Kritik und Slack-/Signal-Benachrichtigungen.

OpenClawRadar