V100 MoE-Cluster: 50 tok/s auf 122B-Modell mit 4 GPUs

Ein Anwalt, der einen 12x V100 32 GB SXM2-Cluster auf einem Threadripper Pro betreibt, berichtet, dass auf Volta-GPUs (Compute Capability 7.0) nur MoE-Modelle brauchbare Decodierungsgeschwindigkeiten liefern. Dichte Modelle sind eine Falle – selbst ein dichtes 27-32B-Modell kämpft mit 20-28 tok/s, weit unter einer 40 tok/s-Marke. Im Gegensatz dazu erreicht Qwen3.5-122B-A10B (122B insgesamt, 10B aktiv) ~50 tok/s auf einem einzelnen 4-GPU-NVLink-Board, und Gemma-4-26B-A4B erreicht ~113 tok/s. Alle Benchmarks verwenden Q8 GGUF mit Q4 KV-Cache und Flash-Attention.

Hardware-Konfiguration

Der endgültige Aufbau: zwölf V100-SXM2 32 GB auf einem Threadripper Pro. Zwei NVLink-Boards (je 4 GPUs) plus zwei gemischte Paare. Board A belegt GPUs {4,5,8,9}, Board B {6,7,10,11}. Ein NVLink-Paar sitzt auf {0,1} und ein gemischtes Paar auf {2,3}, wobei eine Karte 16 GB hat. Board-übergreifende Hops gehen über PCIe/NUMA statt NVLink, was den Durchsatz tötet. Alle Modelle werden innerhalb eines einzelnen Boards gehalten.

Eine zweite Box wurde hinzugefügt: EPYC 7302P, 512 GB RAM, 4x RTX 3090 + 2x V100-PCIe, die mit Ollama für kleinere Modelle läuft.

Stack-Wechsel: vLLM → llama.cpp

Der Betreiber hat vLLM aufgegeben, weil die Modelle, die er eigentlich verwenden möchte, MoE-GGUFs sind und vLLM auf Volta für sie eine Sackgasse ist – FP8/AWQ/Marlin-Kernel erfordern SM75+, und GPTQ-Kernel sind auf Compute 7.0 defekt. Er ist auf das Hauptlinien-llama.cpp umgestiegen, das kürzlich einen Gemma-Chat-Parser-Bug behoben hat, der lange Prompts verstümmelte.

Orchestrierung mit Claude Code

Das System ist kein einzelnes Modell, das einen Chat beantwortet – ein Orchestrator (angetrieben von Claude Code) leitet juristische Aufgaben an mehrere lokale Modelle weiter, jedes auf sein eigenes Board beschränkt, um GPU-Konflikte zu vermeiden. Für die schwerste Aufgabe (vollständige eidesstattliche Erklärung oder Antrag, von der Eingabe bis zum Dokument) sind alle 16 GPUs auf beiden Rechnern aktiv:

Entwurfsarbeit: Qwen3.6-35B-A3B auf Board A
Schweres Denken + risikoreiche Entwürfe: Qwen3.5-122B-A10B auf Board B
Gate-Modell: kleines Modell auf dem {0,1}-Paar prüft, ob es Gründe gibt
Gegnerischer Prüfer: greift den Entwurf auf dem {2,3}-Paar an
Finanzen/Extraktion: Gemma-4-26B auf den 3090ern über Ollama

Dies ist eine sequenzielle Pipeline – Modelle greifen nicht gleichzeitig an – aber alle 16 bleiben im GPU-Speicher resident.

Praktische Lehren

Halluzination: Lokale Modelle erfinden selbstbewusst Zitate und Daten. Ein Verifizierer prüft jedes Zitat, Datum und Bates-Nummer gegen Quellenmaterial und blockiert ungestützte Inhalte. Ein gegnerischer Prüfer läuft obendrauf.
Pipeline-Vergiftung: Der Beweismittelbündel-Bauer sammelte versehentlich seine eigenen früheren Ausgaben als Mandantenbeweise, was dazu führte, dass die Modelle auf von ihnen selbst geschriebenem Unsinn „fundierten“ – ein Entwurf zitierte eine RTX 3060 als Bates-Nummer. Behoben durch Bereinigung der Eingabehistorie des Bauers.

Leichtere Aufgaben verbrauchen viel weniger – das Kombinieren und Bates-Stempeln von Beweisstücken ist reine CPU-Arbeit (PyMuPDF + Tesseract), und einfache Zusammenfassungen treffen nur auf Gemma und den Router.

📖 Vollständige Quelle lesen: r/LocalLLaMA

V100 Cluster vs. MoE: 12x SXM2 32GB Build mit Claude Code Orchestrierung

Hardware-Konfiguration

Stack-Wechsel: vLLM → llama.cpp

Orchestrierung mit Claude Code

Praktische Lehren

👀 Siehe auch

Nicht-technischer Gründer baut Produktions-Marktplatz mit Claude Code

Täglicher 3,5-Stunden-Sprach- + Claude-Workflow: Spezifikationen beim Gehen diktieren, mit Claude Code erstellen

OpenClaw Family Gateway: Token-Budgets, Speicheroptimierung und benutzerdefinierte Plugins

SeatBee.app nutzt Claude AI für Hochzeitssitzordnungen