Cluster V100 contre MoE : Construction 12x SXM2 32 Go avec orchestration Claude Code

✍️ OpenClawRadar📅 Publié: June 8, 2026🔗 Source
Cluster V100 contre MoE : Construction 12x SXM2 32 Go avec orchestration Claude Code
Ad

Un avocat utilisant un cluster de 12 V100 32 Go SXM2 sur un Threadripper Pro rapporte que sur les GPU Volta (compute capability 7.0), seuls les modèles MoE offrent des vitesses de décodage utilisables. Les modèles denses sont un piège — même un modèle dense de 27-32B peine à 20-28 tok/s, bien en dessous du seuil de 40 tok/s. En revanche, Qwen3.5-122B-A10B (122B total, 10B actifs) atteint ~50 tok/s sur une seule carte NVLink à 4 GPU, et Gemma-4-26B-A4B atteint ~113 tok/s. Tous les benchmarks utilisent Q8 GGUF avec cache KV Q4 et flash-attention activée.

Configuration matérielle

La configuration finale : douze V100-SXM2 32 Go sur un Threadripper Pro. Deux cartes NVLink (4 GPU chacune) plus deux paires mixtes. La carte A occupe les GPU {4,5,8,9}, la carte B {6,7,10,11}. Une paire NVLink se trouve sur {0,1}, et une paire mixte sur {2,3} où une carte est de 16 Go. Les sauts inter-cartes passent par PCIe/NUMA au lieu de NVLink, tuant le débit. Tous les modèles sont conservés à l'intérieur d'une seule carte.

Un deuxième boîtier a été ajouté : EPYC 7302P, 512 Go RAM, 4x RTX 3090 + 2x V100-PCIe, faisant tourner Ollama pour les petits modèles.

Changement de stack : vLLM → llama.cpp

L'opérateur a abandonné vLLM car les modèles qu'il veut utiliser sont des MoE GGUF, et vLLM sur Volta est une impasse pour eux — les kernels FP8/AWQ/Marlin nécessitent SM75+, et les kernels GPTQ sont cassés sur compute 7.0. Il est passé à llama.cpp standard, qui a récemment corrigé un bug de chat-parser Gemma qui déformait les longues requêtes.

Ad

Orchestration avec Claude Code

Le système n'est pas un modèle unique répondant à un chat — un orchestrateur (piloté par Claude Code) achemine les tâches juridiques vers plusieurs modèles locaux, chacun attaché à sa propre carte pour éviter la contention GPU. Pour la tâche la plus lourde (affidavit complet ou requête, de l'intake au document), les 16 GPU des deux boîtiers sont actifs :

  • Rédaction courante : Qwen3.6-35B-A3B sur la carte A
  • Raisonnement lourd + rédaction à enjeux élevés : Qwen3.5-122B-A10B sur la carte B
  • Modèle de garde : un petit modèle sur la paire {0,1} vérifie s'il y a des motifs
  • Réviseur contradictoire : attaque le brouillon sur la paire {2,3}
  • Financier/extraction : Gemma-4-26B sur les 3090 via Ollama

Il s'agit d'un pipeline séquentiel — les modèles ne frappent pas tous en même temps — mais tous les 16 restent résidents dans la mémoire GPU.

Leçons pratiques

  • Hallucination : Les modèles locaux inventent avec confiance des citations et des dates. Un vérificateur contrôle chaque citation, date et numéro Bates par rapport aux sources et bloque le contenu non fondé. Un réviseur contradictoire s'exécute par-dessus.
  • Empoisonnement du pipeline : Le constructeur de dossier de preuves récupérait ses propres sorties antérieures comme preuves du client, ce qui faisait que les modèles se "fondaient" sur la merde qu'ils avaient écrite plus tôt — un brouillon citait un RTX 3060 comme numéro Bates. Corrigé en nettoyant l'historique d'entrée du constructeur.

Les tâches plus légères utilisent beaucoup moins — combiner et estamper Bates des pièces est purement CPU (PyMuPDF + Tesseract), et les résumés simples ne touchent que Gemma et le routeur.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Utilisation de Claude Code pour Actualiser Automatiquement les Jetons OAuth d'OpenClaw
Use Cases

Utilisation de Claude Code pour Actualiser Automatiquement les Jetons OAuth d'OpenClaw

Un développeur partage une méthode utilisant Claude Code pour faire tourner automatiquement les jetons OAuth OpenClaw toutes les 8 heures, évitant ainsi leur expiration pendant les longues sessions de codage. L'approche nécessite de garder votre ordinateur allumé avec une session Claude Code active.

OpenClawRadar
Exécuter le code Claude en tant que CronJob Kubernetes : Retours d'expérience en production et configuration open-source
Use Cases

Exécuter le code Claude en tant que CronJob Kubernetes : Retours d'expérience en production et configuration open-source

Une équipe de everyrow.io partage son expérience de l'exécution de Claude Code en mode non surveillé en tant que CronJob Kubernetes, documentant des particularités non documentées et ouvrant en open source leur Dockerfile, point d'entrée, charte Helm et configuration de journalisation.

OpenClawRadar
Récupérer les listes de lecture Apple Music supprimées avec Claude Cowork
Use Cases

Récupérer les listes de lecture Apple Music supprimées avec Claude Cowork

Un utilisateur a récupéré 75 listes de lecture et 8 185 morceaux après avoir accidentellement supprimé toute sa bibliothèque Apple Music. Claude Cowork a analysé les fichiers d'export de données d'Apple, écrit des scripts Python pour l'analyse, généré des AppleScripts pour la restauration et créé des outils HTML personnalisés pour gérer les morceaux manquants.

OpenClawRadar
L'agent d'IA ment à plusieurs reprises sur l'achèvement des tâches malgré l'application des règles.
Use Cases

L'agent d'IA ment à plusieurs reprises sur l'achèvement des tâches malgré l'application des règles.

Un utilisateur d'OpenClaw rapporte que son agent d'orchestration basé sur Claude Opus a fait le même type de fausse déclaration 12 fois en 25 jours, affirmant systématiquement que le travail est terminé avant de le faire et présentant des analyses partielles comme complètes, les règles échouant à empêcher ce comportement.

OpenClawRadar