Configuration et tests de vLLM sur un serveur équipé de 10x NVIDIA V100 avec 320 Go de VRAM

✍️ OpenClawRadar📅 Publié: April 15, 2026🔗 Source

Configuration matérielle et notes de construction

Un développeur a construit un serveur IA local avec 10 GPU Tesla V100 SXM2 32 Go (320 Go de VRAM au total) sur un système AMD Threadripper PRO. La configuration utilise Ubuntu 24.04 headless avec le pilote NVIDIA 580.126.20. La topologie GPU comprend deux maillages quad NVLink (GPU 0-3, 4/5/8/9) plus une paire NV6 (GPU 6-7).

Ce qui fonctionne sur V100 avec vLLM

FP16 non quantifié : Voie principale utilisant --dtype half
bitsandbytes 4 bits : Fonctionne pour les modèles trop grands pour FP16
TRITON_ATTN : Repli automatique car FlashAttention2 nécessite SM 80+
Parallélisme tensoriel/pipeline : TP=4 et TP=4 PP=2 tous deux testés avec succès

Ce qui ne fonctionne pas sur V100

GPTQ : Noyaux ExLlamaV2 cassés sur SM 7.0 (problème vLLM #2165)
AWQ : Nécessite SM 75+
FP8 : Nécessite SM 75+. MiniMax M2.5 utilise FP8 en interne — mort-né.
FlashAttention2 : Nécessite SM 80+
DeepSeek MLA : Hopper/Blackwell uniquement. DeepSeek V3/R1 complet ne peut pas fonctionner sur vLLM + V100.

Exigences de construction et correctifs critiques

PyTorch 2.11.0+cu126 est requis — cu126 est la dernière version avec support V100 car cu128+ abandonne Volta. La compilation source nécessite TORCH_CUDA_ARCH_LIST="7.0" et MAX_JOBS=20. Un correctif de noyau MoE est nécessaire pour le problème #36008, changeant B.size(1) en B.size(0) dans fused_moe.py (2 lignes). PYTHONNOUSERSITE=1 est requis pour isoler l'environnement conda des packages système obsolètes.

Correctif critique de dépendance NCCL : pip install -e . récupère nvidia-nccl-cu13 avec nvidia-nccl-cu12. La bibliothèque cu13 est chargée au runtime et référence des symboles CUDA 13 qui n'existent pas dans l'environnement d'exécution cu126, entraînant "erreur NCCL : erreur cuda non gérée" à chaque lancement multi-GPU. La solution implique de désinstaller tous les packages nvidia-* et de gérer les dépendances avec soin.

📖 Read the full source: r/LocalLLaMA

👀 See Also

Guides

Arrêtez de demander quel modèle d'IA utiliser : Acheminez les tâches vers les niveaux Haiku, Sonnet et Opus

Utilisez au moins trois modèles par type de tâche : niveau Haïku pour la lecture/résumé, niveau Sonnet pour écrire du code, et niveau Opus uniquement pour les refontes multi-fichiers et le débogage. La configuration d'un utilisateur achemine 40 % vers des modèles bon marché, 35 % vers des modèles intermédiaires, 25 % vers des modèles de pointe, pour un coût d'environ 30 à 40 $/mois.

May 5, 2026, 10:21 PM UTC

OpenClawRadar

Guides

Guide d'automatisation de la recherche d'emploi OpenClaw — Préférences, tâches Cron et filtrage

Un guide pratique pour automatiser la recherche d'emploi avec OpenClaw : définir un cahier des charges précis, choisir un outil de récupération des offres (automatisation de navigateur, scraping ou API structurée), et valider le processus avant de configurer un cron job.

Jun 24, 2026, 12:18 PM UTC

OpenClawRadar

Guides

Traduction en fr : Problèmes et solutions de configuration de l'accès conditionnel Claude Code O365 MCP

Un développeur partage des solutions spécifiques pour deux problèmes rencontrés lors de la configuration du connecteur O365 MCP de Claude Code sous des politiques d'accès conditionnel : trouver les identifiants d'application corrects pour les règles de politique et résoudre les erreurs d'authentification liées aux emplacements des serveurs.

Apr 16, 2026, 10:45 PM UTC

OpenClawRadar

Guides

OpenClaw 101 : Un résumé de démarrage rapide pour débutants

Aucun

Feb 7, 2026, 03:58 PM UTC

u/mehdiweb