Clúster V100 MoE: 50 tok/s en modelo 122B con 4 GPUs

Un abogado que opera un clúster de 12 V100 32GB SXM2 en un Threadripper Pro informa que en las GPU Volta (capacidad de cómputo 7.0), solo los modelos MoE ofrecen velocidades de decodificación utilizables. Los modelos densos son una trampa: incluso un modelo denso de 27-32B tiene dificultades a 20-28 tok/s, muy por debajo del umbral de 40 tok/s. En contraste, Qwen3.5-122B-A10B (122B total, 10B activos) alcanza ~50 tok/s en una sola placa de 4 GPU con NVLink, y Gemma-4-26B-A4B logra ~113 tok/s. Todos los benchmarks usan Q8 GGUF con caché KV Q4 y flash-attention activado.

Configuración de Hardware

La construcción final: doce V100-SXM2 de 32GB en un Threadripper Pro. Dos placas NVLink (4 GPU cada una) más dos pares mixtos. La placa A ocupa las GPU {4,5,8,9}, la placa B {6,7,10,11}. Un par NVLink está en {0,1} y un par mixto en {2,3}, donde una tarjeta es de 16GB. Los saltos entre placas atraviesan PCIe/NUMA en lugar de NVLink, matando el rendimiento. Todos los modelos se mantienen dentro de una sola placa.

Se agregó una segunda máquina: EPYC 7302P, 512GB RAM, 4x RTX 3090 + 2x V100-PCIe, ejecutando Ollama para modelos más pequeños.

Cambio de Stack: vLLM → llama.cpp

El operador abandonó vLLM porque los modelos que realmente quiere son MoE GGUFs, y vLLM en Volta es un callejón sin salida para ellos: los kernels FP8/AWQ/Marlin requieren SM75+, y los kernels GPTQ están rotos en compute 7.0. Se mudó a llama.cpp principal, que recientemente corrigió un bug en el parser de chat de Gemma que distorsionaba prompts largos.

Orquestación con Claude Code

El sistema no es un solo modelo respondiendo un chat: un orquestador (impulsado por Claude Code) distribuye tareas legales entre varios modelos locales, cada uno fijado a su propia placa para evitar contención de GPU. Para el trabajo más pesado (declaración jurada o moción completa, desde ingreso hasta documento), las 16 GPU en ambas máquinas están activas:

Redacción principal: Qwen3.6-35B-A3B en la Placa A
Razonamiento pesado + redacción de alto riesgo: Qwen3.5-122B-A10B en la Placa B
Modelo de puerta: modelo pequeño en el par {0,1} verifica si hay fundamentos
Revisor adversarial: ataca el borrador en el par {2,3}
Finanzas/extracción: Gemma-4-26B en las 3090s vía Ollama

Este es un pipeline secuencial (los modelos no operan todos a la vez), pero los 16 permanecen residentes en la memoria de las GPU.

Lecciones Prácticas

Alucinación: Los modelos locales inventan citas y fechas con confianza. Un verificador revisa cada cita, fecha y número Bates contra el material fuente y bloquea contenido sin fundamento. Un revisor adversarial actúa en la cima.
Envenenamiento del pipeline: El constructor de paquetes de evidencia estaba recogiendo sus propias salidas anteriores como evidencia del cliente, haciendo que los modelos se "fundamentaran" en basura que ellos mismos escribieron antes — un borrador citó una RTX 3060 como número Bates. Solucionado limpiando el historial de entrada del constructor.

Las tareas más ligeras usan mucho menos: combinar y sellar con Bates los documentos es puramente CPU (PyMuPDF + Tesseract), y los resúmenes simples solo tocan Gemma y el enrutador.

📖 Lee la fuente completa: r/LocalLLaMA

V100 Cluster vs. MoE: Construcción de 12x SXM2 32GB con Orquestación de Claude Code

Configuración de Hardware

Cambio de Stack: vLLM → llama.cpp

Orquestación con Claude Code

Lecciones Prácticas

👀 Ver también

Desarrollador Lanza Juego en Steam con Código de Claude: Lecciones sobre Programación por Vibes vs. Ingeniería por Vibes

Claude Code permite que un recién graduado desarrolle en solitario un juego multijugador en tiempo real

Compañero Matutino Automatizado con Generación de Fondos de Pantalla de Citas Usando Remotion

Desarrollador no técnico crea API de riesgos cripto con Claude en una tarde.