V100 Cluster vs. MoE: 12x SXM2 32GB Build mit Claude Code Orchestrierung

✍️ OpenClawRadar📅 Veröffentlicht: 8. Juni 2026🔗 Source
V100 Cluster vs. MoE: 12x SXM2 32GB Build mit Claude Code Orchestrierung
Ad

Ein Anwalt, der einen 12x V100 32 GB SXM2-Cluster auf einem Threadripper Pro betreibt, berichtet, dass auf Volta-GPUs (Compute Capability 7.0) nur MoE-Modelle brauchbare Decodierungsgeschwindigkeiten liefern. Dichte Modelle sind eine Falle – selbst ein dichtes 27-32B-Modell kämpft mit 20-28 tok/s, weit unter einer 40 tok/s-Marke. Im Gegensatz dazu erreicht Qwen3.5-122B-A10B (122B insgesamt, 10B aktiv) ~50 tok/s auf einem einzelnen 4-GPU-NVLink-Board, und Gemma-4-26B-A4B erreicht ~113 tok/s. Alle Benchmarks verwenden Q8 GGUF mit Q4 KV-Cache und Flash-Attention.

Hardware-Konfiguration

Der endgültige Aufbau: zwölf V100-SXM2 32 GB auf einem Threadripper Pro. Zwei NVLink-Boards (je 4 GPUs) plus zwei gemischte Paare. Board A belegt GPUs {4,5,8,9}, Board B {6,7,10,11}. Ein NVLink-Paar sitzt auf {0,1} und ein gemischtes Paar auf {2,3}, wobei eine Karte 16 GB hat. Board-übergreifende Hops gehen über PCIe/NUMA statt NVLink, was den Durchsatz tötet. Alle Modelle werden innerhalb eines einzelnen Boards gehalten.

Eine zweite Box wurde hinzugefügt: EPYC 7302P, 512 GB RAM, 4x RTX 3090 + 2x V100-PCIe, die mit Ollama für kleinere Modelle läuft.

Stack-Wechsel: vLLM → llama.cpp

Der Betreiber hat vLLM aufgegeben, weil die Modelle, die er eigentlich verwenden möchte, MoE-GGUFs sind und vLLM auf Volta für sie eine Sackgasse ist – FP8/AWQ/Marlin-Kernel erfordern SM75+, und GPTQ-Kernel sind auf Compute 7.0 defekt. Er ist auf das Hauptlinien-llama.cpp umgestiegen, das kürzlich einen Gemma-Chat-Parser-Bug behoben hat, der lange Prompts verstümmelte.

Ad

Orchestrierung mit Claude Code

Das System ist kein einzelnes Modell, das einen Chat beantwortet – ein Orchestrator (angetrieben von Claude Code) leitet juristische Aufgaben an mehrere lokale Modelle weiter, jedes auf sein eigenes Board beschränkt, um GPU-Konflikte zu vermeiden. Für die schwerste Aufgabe (vollständige eidesstattliche Erklärung oder Antrag, von der Eingabe bis zum Dokument) sind alle 16 GPUs auf beiden Rechnern aktiv:

  • Entwurfsarbeit: Qwen3.6-35B-A3B auf Board A
  • Schweres Denken + risikoreiche Entwürfe: Qwen3.5-122B-A10B auf Board B
  • Gate-Modell: kleines Modell auf dem {0,1}-Paar prüft, ob es Gründe gibt
  • Gegnerischer Prüfer: greift den Entwurf auf dem {2,3}-Paar an
  • Finanzen/Extraktion: Gemma-4-26B auf den 3090ern über Ollama

Dies ist eine sequenzielle Pipeline – Modelle greifen nicht gleichzeitig an – aber alle 16 bleiben im GPU-Speicher resident.

Praktische Lehren

  • Halluzination: Lokale Modelle erfinden selbstbewusst Zitate und Daten. Ein Verifizierer prüft jedes Zitat, Datum und Bates-Nummer gegen Quellenmaterial und blockiert ungestützte Inhalte. Ein gegnerischer Prüfer läuft obendrauf.
  • Pipeline-Vergiftung: Der Beweismittelbündel-Bauer sammelte versehentlich seine eigenen früheren Ausgaben als Mandantenbeweise, was dazu führte, dass die Modelle auf von ihnen selbst geschriebenem Unsinn „fundierten“ – ein Entwurf zitierte eine RTX 3060 als Bates-Nummer. Behoben durch Bereinigung der Eingabehistorie des Bauers.

Leichtere Aufgaben verbrauchen viel weniger – das Kombinieren und Bates-Stempeln von Beweisstücken ist reine CPU-Arbeit (PyMuPDF + Tesseract), und einfache Zusammenfassungen treffen nur auf Gemma und den Router.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Ad

👀 Siehe auch

Nicht-technischer Gründer baut Produktions-Marktplatz mit Claude Code
Anwendungsfälle

Nicht-technischer Gründer baut Produktions-Marktplatz mit Claude Code

Ein nicht-technischer Gründer nutzte Claude Code im Terminal, um eine zweiseitige Marktplatz-Website mit Next.js, TypeScript, Supabase, Tailwind und Vercel-Deployment zu erstellen, inklusive vollständiger Authentifizierung, RLS und Datenbank-Migrationen.

OpenClawRadar
Täglicher 3,5-Stunden-Sprach- + Claude-Workflow: Spezifikationen beim Gehen diktieren, mit Claude Code erstellen
Anwendungsfälle

Täglicher 3,5-Stunden-Sprach- + Claude-Workflow: Spezifikationen beim Gehen diktieren, mit Claude Code erstellen

Ein Entwickler geht mit 3 Hunden 12+ Mal am Tag spazieren (3,5 Stunden) und nutzt dabei Spracheingabe + Claude, um zu brainstormen, zu recherchieren und spec.md-Dateien zu erstellen. Anschließend baut Claude Code basierend auf diesen Spezifikationen.

OpenClawRadar
OpenClaw Family Gateway: Token-Budgets, Speicheroptimierung und benutzerdefinierte Plugins
Anwendungsfälle

OpenClaw Family Gateway: Token-Budgets, Speicheroptimierung und benutzerdefinierte Plugins

Ein Entwickler baute ein Familien-AI-Gateway mit OpenClaw auf einem Mac und QNAP NAS, implementierte strenge Token-Budgets, optimierte den Speicherzugriff durch Re-Ranking und kontextuelle Einbettungen und erstellte 12 benutzerdefinierte Plugins mit über 175 Befehlen.

OpenClawRadar
SeatBee.app nutzt Claude AI für Hochzeitssitzordnungen
Anwendungsfälle

SeatBee.app nutzt Claude AI für Hochzeitssitzordnungen

SeatBee.app wurde mit Claude Code und Claude AI über OpenRouter entwickelt, um Probleme bei der Erstellung von Sitzplänen für Hochzeiten zu lösen. Die KI bewältigt Constraint-Satisfaction-Probleme für 150 Gäste mit 20 Regeln, generiert in Sekunden optimale Sitzordnungen und versteht soziale Dynamiken wie die Schaffung von Pufferzonen zwischen Personen mit schwierigen Trennungen.

OpenClawRadar