Serveur LLM local à 6,4k $ : TCO vs coûts API

Un développeur sur r/LocalLLaMA a publié une analyse de coût approfondie de son serveur LLM local à 6 406,45 $, incluant la dépréciation et l'électricité, comparé aux tarifs API. Le serveur utilise quatre GPU AMD MI100 32 Go d'occasion avec llama.cpp exécutant Qwen3.6 27B, traitant 20,4 millions de tokens d'entrée et 1,32 million de tokens de sortie par jour.

Spécifications matérielles

4x MI100 32 Go (occasion) : 4 234,82 $
Carte mère ASRock EPYCD8-2T : 721,61 $
Alimentation 1600 W 80+ Platinum : 497,95 $
8x8 Go DDR4 ECC RDIMM (occasion) : 348,79 $
CPU EPYC 7K62 48 cœurs (occasion) : 254,28 $
Ventilateur CPU, boîtier, soufflantes, câbles : ~349 $
Total : 6 406,45 $

Performances et comparaison des coûts

À 0,29 $/M d'entrée et 3,2 $/M de sortie sur OpenRouter pour Qwen3.6 27B, le coût quotidien équivalent API est de 10,14 $, soit 3 701,10 $/an. Le serveur local produit les mêmes tokens pour un coût électrique quotidien de 2,11 $ (630 W à 0,14 $/kWh), soit 770,15 $/an.

Comptabilisation de la dépréciation

L'auteur utilise un modèle de dépréciation réaliste : accessoires 100 % de perte, pièces neuves 50 % de perte, pièces d'occasion 10 % de perte. Cela donne un coût de dépréciation matérielle unique de 1 442,57 $, qui reste à peu près le même que l'on vende après 1 jour ou 5 ans.

Après un an, le coût local total = 770 $ (électricité) + 1 443 $ (dépréciation) = 2 213 $, contre 3 701 $ pour l'API — une économie de 1 488 $.

Comparaison des forfaits de codage

Pour contexte, le meilleur forfait de codage de Z.AI (144 $/mois) fournit environ 4,5 M d'entrée/200 k sortie tokens/jour de GLM 4.7, ce qui, normalisé à la même capacité que le serveur local, coûterait 652,80 $/mois ou 7 833,60 $/an — plus du double du tarif OpenRouter pour le même modèle.

L'auteur note que les forfaits de codage ne sont pas toujours avantageux et conseille de vérifier ce que vous payez réellement en tokens.

📖 Lire la source complète : r/LocalLLaMA