Configuration et tests de vLLM sur un serveur équipé de 10x NVIDIA V100 avec 320 Go de VRAM

✍️ OpenClawRadar📅 Publié: April 15, 2026🔗 Source
Configuration et tests de vLLM sur un serveur équipé de 10x NVIDIA V100 avec 320 Go de VRAM
Ad

Configuration matérielle et notes de construction

Un développeur a construit un serveur IA local avec 10 GPU Tesla V100 SXM2 32 Go (320 Go de VRAM au total) sur un système AMD Threadripper PRO. La configuration utilise Ubuntu 24.04 headless avec le pilote NVIDIA 580.126.20. La topologie GPU comprend deux maillages quad NVLink (GPU 0-3, 4/5/8/9) plus une paire NV6 (GPU 6-7).

Ce qui fonctionne sur V100 avec vLLM

  • FP16 non quantifié : Voie principale utilisant --dtype half
  • bitsandbytes 4 bits : Fonctionne pour les modèles trop grands pour FP16
  • TRITON_ATTN : Repli automatique car FlashAttention2 nécessite SM 80+
  • Parallélisme tensoriel/pipeline : TP=4 et TP=4 PP=2 tous deux testés avec succès

Ce qui ne fonctionne pas sur V100

  • GPTQ : Noyaux ExLlamaV2 cassés sur SM 7.0 (problème vLLM #2165)
  • AWQ : Nécessite SM 75+
  • FP8 : Nécessite SM 75+. MiniMax M2.5 utilise FP8 en interne — mort-né.
  • FlashAttention2 : Nécessite SM 80+
  • DeepSeek MLA : Hopper/Blackwell uniquement. DeepSeek V3/R1 complet ne peut pas fonctionner sur vLLM + V100.
Ad

Exigences de construction et correctifs critiques

PyTorch 2.11.0+cu126 est requis — cu126 est la dernière version avec support V100 car cu128+ abandonne Volta. La compilation source nécessite TORCH_CUDA_ARCH_LIST="7.0" et MAX_JOBS=20. Un correctif de noyau MoE est nécessaire pour le problème #36008, changeant B.size(1) en B.size(0) dans fused_moe.py (2 lignes). PYTHONNOUSERSITE=1 est requis pour isoler l'environnement conda des packages système obsolètes.

Correctif critique de dépendance NCCL : pip install -e . récupère nvidia-nccl-cu13 avec nvidia-nccl-cu12. La bibliothèque cu13 est chargée au runtime et référence des symboles CUDA 13 qui n'existent pas dans l'environnement d'exécution cu126, entraînant "erreur NCCL : erreur cuda non gérée" à chaque lancement multi-GPU. La solution implique de désinstaller tous les packages nvidia-* et de gérer les dépendances avec soin.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Comment fonctionne réellement la mémoire d'OpenCLAW : Résoudre l'« oubli » de l'agent
Guides

Comment fonctionne réellement la mémoire d'OpenCLAW : Résoudre l'« oubli » de l'agent

Les agents OpenCLAW n'ont pas de mémoire persistante entre les conversations - ils reconstruisent le contexte à partir de fichiers comme SOUL.md, USER.md et MEMORY.md à chaque fois. Les problèmes courants d'«oubli» proviennent d'anciennes sessions, de fichiers mémoire non structurés et du stockage d'informations importantes dans l'historique des discussions au lieu de fichiers permanents.

OpenClawRadar
Méthodologie pour l'Évaluation Comparative Cohérente des LLM Locaux vs Cloud
Guides

Méthodologie pour l'Évaluation Comparative Cohérente des LLM Locaux vs Cloud

Un développeur partage une configuration de mesure utilisant des requêtes séquentielles et un système de notation basé sur des règles pour comparer des modèles locaux (via llama.cpp, vLLM, Ollama) avec des API cloud (GPT-5.4, Claude Sonnet 4.6, Gemini 3.1 Pro) via un point de terminaison unifié comme ZenMux.

OpenClawRadar
Erreur du service de machine virtuelle Windows Cowork : Problème de chemin et correctif
Guides

Erreur du service de machine virtuelle Windows Cowork : Problème de chemin et correctif

Un problème d'installation de Windows Cowork provoque l'erreur 'service VM non en cours d'exécution' toutes les 10 à 20 minutes en raison d'un chemin incorrect du dossier vm_bundles dans les installations MSIX. La solution consiste à localiser le dossier correct et à utiliser un script de réparation.

OpenClawRadar
Capturez sans effort les transcriptions de Google Meet et Teams avec OpenClaw — Guide de compétences et de configuration
Guides

Capturez sans effort les transcriptions de Google Meet et Teams avec OpenClaw — Guide de compétences et de configuration

L'intégration d'OpenClaw dans Google Meet et Microsoft Teams offre des capacités de transcription fluides. Découvrez comment configurer et optimiser ce processus pour une meilleure efficacité de flux de travail.

OpenClawRadar