Cluster V100 MoE : 50 tok/s sur modèle 122B avec 4 GPU

Un avocat utilisant un cluster de 12 V100 32 Go SXM2 sur un Threadripper Pro rapporte que sur les GPU Volta (compute capability 7.0), seuls les modèles MoE offrent des vitesses de décodage utilisables. Les modèles denses sont un piège — même un modèle dense de 27-32B peine à 20-28 tok/s, bien en dessous du seuil de 40 tok/s. En revanche, Qwen3.5-122B-A10B (122B total, 10B actifs) atteint ~50 tok/s sur une seule carte NVLink à 4 GPU, et Gemma-4-26B-A4B atteint ~113 tok/s. Tous les benchmarks utilisent Q8 GGUF avec cache KV Q4 et flash-attention activée.

Configuration matérielle

La configuration finale : douze V100-SXM2 32 Go sur un Threadripper Pro. Deux cartes NVLink (4 GPU chacune) plus deux paires mixtes. La carte A occupe les GPU {4,5,8,9}, la carte B {6,7,10,11}. Une paire NVLink se trouve sur {0,1}, et une paire mixte sur {2,3} où une carte est de 16 Go. Les sauts inter-cartes passent par PCIe/NUMA au lieu de NVLink, tuant le débit. Tous les modèles sont conservés à l'intérieur d'une seule carte.

Un deuxième boîtier a été ajouté : EPYC 7302P, 512 Go RAM, 4x RTX 3090 + 2x V100-PCIe, faisant tourner Ollama pour les petits modèles.

Changement de stack : vLLM → llama.cpp

L'opérateur a abandonné vLLM car les modèles qu'il veut utiliser sont des MoE GGUF, et vLLM sur Volta est une impasse pour eux — les kernels FP8/AWQ/Marlin nécessitent SM75+, et les kernels GPTQ sont cassés sur compute 7.0. Il est passé à llama.cpp standard, qui a récemment corrigé un bug de chat-parser Gemma qui déformait les longues requêtes.

Orchestration avec Claude Code

Le système n'est pas un modèle unique répondant à un chat — un orchestrateur (piloté par Claude Code) achemine les tâches juridiques vers plusieurs modèles locaux, chacun attaché à sa propre carte pour éviter la contention GPU. Pour la tâche la plus lourde (affidavit complet ou requête, de l'intake au document), les 16 GPU des deux boîtiers sont actifs :

Rédaction courante : Qwen3.6-35B-A3B sur la carte A
Raisonnement lourd + rédaction à enjeux élevés : Qwen3.5-122B-A10B sur la carte B
Modèle de garde : un petit modèle sur la paire {0,1} vérifie s'il y a des motifs
Réviseur contradictoire : attaque le brouillon sur la paire {2,3}
Financier/extraction : Gemma-4-26B sur les 3090 via Ollama

Il s'agit d'un pipeline séquentiel — les modèles ne frappent pas tous en même temps — mais tous les 16 restent résidents dans la mémoire GPU.

Leçons pratiques

Hallucination : Les modèles locaux inventent avec confiance des citations et des dates. Un vérificateur contrôle chaque citation, date et numéro Bates par rapport aux sources et bloque le contenu non fondé. Un réviseur contradictoire s'exécute par-dessus.
Empoisonnement du pipeline : Le constructeur de dossier de preuves récupérait ses propres sorties antérieures comme preuves du client, ce qui faisait que les modèles se "fondaient" sur la merde qu'ils avaient écrite plus tôt — un brouillon citait un RTX 3060 comme numéro Bates. Corrigé en nettoyant l'historique d'entrée du constructeur.

Les tâches plus légères utilisent beaucoup moins — combiner et estamper Bates des pièces est purement CPU (PyMuPDF + Tesseract), et les résumés simples ne touchent que Gemma et le routeur.

📖 Read the full source: r/LocalLLaMA

Cluster V100 contre MoE : Construction 12x SXM2 32 Go avec orchestration Claude Code

Configuration matérielle

Changement de stack : vLLM → llama.cpp

Orchestration avec Claude Code

Leçons pratiques

👀 See Also

Utilisation de Claude Code pour Actualiser Automatiquement les Jetons OAuth d'OpenClaw

Exécuter le code Claude en tant que CronJob Kubernetes : Retours d'expérience en production et configuration open-source

Récupérer les listes de lecture Apple Music supprimées avec Claude Cowork

L'agent d'IA ment à plusieurs reprises sur l'achèvement des tâches malgré l'application des règles.