Création d'un serveur LLM local à 6 400 $ : Répartition du coût total de possession par rapport aux coûts d'API

✍️ OpenClawRadar📅 Publié: May 31, 2026🔗 Source
Création d'un serveur LLM local à 6 400 $ : Répartition du coût total de possession par rapport aux coûts d'API
Ad

Un développeur sur r/LocalLLaMA a publié une analyse de coût approfondie de son serveur LLM local à 6 406,45 $, incluant la dépréciation et l'électricité, comparé aux tarifs API. Le serveur utilise quatre GPU AMD MI100 32 Go d'occasion avec llama.cpp exécutant Qwen3.6 27B, traitant 20,4 millions de tokens d'entrée et 1,32 million de tokens de sortie par jour.

Spécifications matérielles

  • 4x MI100 32 Go (occasion) : 4 234,82 $
  • Carte mère ASRock EPYCD8-2T : 721,61 $
  • Alimentation 1600 W 80+ Platinum : 497,95 $
  • 8x8 Go DDR4 ECC RDIMM (occasion) : 348,79 $
  • CPU EPYC 7K62 48 cœurs (occasion) : 254,28 $
  • Ventilateur CPU, boîtier, soufflantes, câbles : ~349 $
  • Total : 6 406,45 $
Ad

Performances et comparaison des coûts

À 0,29 $/M d'entrée et 3,2 $/M de sortie sur OpenRouter pour Qwen3.6 27B, le coût quotidien équivalent API est de 10,14 $, soit 3 701,10 $/an. Le serveur local produit les mêmes tokens pour un coût électrique quotidien de 2,11 $ (630 W à 0,14 $/kWh), soit 770,15 $/an.

Comptabilisation de la dépréciation

L'auteur utilise un modèle de dépréciation réaliste : accessoires 100 % de perte, pièces neuves 50 % de perte, pièces d'occasion 10 % de perte. Cela donne un coût de dépréciation matérielle unique de 1 442,57 $, qui reste à peu près le même que l'on vende après 1 jour ou 5 ans.

Après un an, le coût local total = 770 $ (électricité) + 1 443 $ (dépréciation) = 2 213 $, contre 3 701 $ pour l'API — une économie de 1 488 $.

Comparaison des forfaits de codage

Pour contexte, le meilleur forfait de codage de Z.AI (144 $/mois) fournit environ 4,5 M d'entrée/200 k sortie tokens/jour de GLM 4.7, ce qui, normalisé à la même capacité que le serveur local, coûterait 652,80 $/mois ou 7 833,60 $/an — plus du double du tarif OpenRouter pour le même modèle.

L'auteur note que les forfaits de codage ne sont pas toujours avantageux et conseille de vérifier ce que vous payez réellement en tokens.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Kit de LLM Blackwell : Configs NVFP4, Wheels et benchmarks pour TensorRT-LLM sur RTX Pro 6000
Tools

Kit de LLM Blackwell : Configs NVFP4, Wheels et benchmarks pour TensorRT-LLM sur RTX Pro 6000

Un dépôt communautaire fournit des configurations TensorRT-LLM, des wheels LMCache préconstruites avec support sm_120, et des benchmarks pour les GPU Blackwell. Nemotron-3-Nano-Omni V3 atteint 270 tok/s avec un contexte de 8k sur un seul RTX Pro 6000.

OpenClawRadar
Développeur partage des outils CLI qui fonctionnent bien avec Claude Code
Tools

Développeur partage des outils CLI qui fonctionnent bien avec Claude Code

Un développeur est passé des MCP aux CLI pour travailler avec Claude Code, constatant que Claude gère efficacement les commandes CLI grâce à son entraînement sur des scripts shell et de la documentation. Il a partagé les CLI spécifiques qu'il utilise quotidiennement, notamment gh, ripgrep, stripe, supabase, vercel, sentry-cli et neon.

OpenClawRadar
PromoClock : Suiveur de fuseaux horaires pour les heures creuses 2x de Claude, développé avec Claude 4.6
Tools

PromoClock : Suiveur de fuseaux horaires pour les heures creuses 2x de Claude, développé avec Claude 4.6

Un développeur a créé PromoClock.co, un outil gratuit qui convertit automatiquement les heures promotionnelles hors pointe de Claude « 5-11h PT / 12-18h GMT » en heure locale, utilisant Claude 4.6 pour la logique des fuseaux horaires, une configuration Next.js 15 et la conception de l'interface utilisateur.

OpenClawRadar
Plugin Peek pour Claude Code : Navigation Automatique dans la Mémoire de Session
Tools

Plugin Peek pour Claude Code : Navigation Automatique dans la Mémoire de Session

Peek est un plugin Claude Code qui capture et injecte automatiquement les corrections et préférences des utilisateurs pour orienter l'assistant IA. Il utilise une recherche par fusion avec des embeddings, BM25, une décroissance temporelle et des filtres de métadonnées pour fournir un contexte pertinent sans sollicitation manuelle.

OpenClawRadar