V100 Cluster vs. MoE: Construcción de 12x SXM2 32GB con Orquestación de Claude Code

Un abogado que opera un clúster de 12 V100 32GB SXM2 en un Threadripper Pro informa que en las GPU Volta (capacidad de cómputo 7.0), solo los modelos MoE ofrecen velocidades de decodificación utilizables. Los modelos densos son una trampa: incluso un modelo denso de 27-32B tiene dificultades a 20-28 tok/s, muy por debajo del umbral de 40 tok/s. En contraste, Qwen3.5-122B-A10B (122B total, 10B activos) alcanza ~50 tok/s en una sola placa de 4 GPU con NVLink, y Gemma-4-26B-A4B logra ~113 tok/s. Todos los benchmarks usan Q8 GGUF con caché KV Q4 y flash-attention activado.
Configuración de Hardware
La construcción final: doce V100-SXM2 de 32GB en un Threadripper Pro. Dos placas NVLink (4 GPU cada una) más dos pares mixtos. La placa A ocupa las GPU {4,5,8,9}, la placa B {6,7,10,11}. Un par NVLink está en {0,1} y un par mixto en {2,3}, donde una tarjeta es de 16GB. Los saltos entre placas atraviesan PCIe/NUMA en lugar de NVLink, matando el rendimiento. Todos los modelos se mantienen dentro de una sola placa.
Se agregó una segunda máquina: EPYC 7302P, 512GB RAM, 4x RTX 3090 + 2x V100-PCIe, ejecutando Ollama para modelos más pequeños.
Cambio de Stack: vLLM → llama.cpp
El operador abandonó vLLM porque los modelos que realmente quiere son MoE GGUFs, y vLLM en Volta es un callejón sin salida para ellos: los kernels FP8/AWQ/Marlin requieren SM75+, y los kernels GPTQ están rotos en compute 7.0. Se mudó a llama.cpp principal, que recientemente corrigió un bug en el parser de chat de Gemma que distorsionaba prompts largos.
Orquestación con Claude Code
El sistema no es un solo modelo respondiendo un chat: un orquestador (impulsado por Claude Code) distribuye tareas legales entre varios modelos locales, cada uno fijado a su propia placa para evitar contención de GPU. Para el trabajo más pesado (declaración jurada o moción completa, desde ingreso hasta documento), las 16 GPU en ambas máquinas están activas:
- Redacción principal: Qwen3.6-35B-A3B en la Placa A
- Razonamiento pesado + redacción de alto riesgo: Qwen3.5-122B-A10B en la Placa B
- Modelo de puerta: modelo pequeño en el par {0,1} verifica si hay fundamentos
- Revisor adversarial: ataca el borrador en el par {2,3}
- Finanzas/extracción: Gemma-4-26B en las 3090s vía Ollama
Este es un pipeline secuencial (los modelos no operan todos a la vez), pero los 16 permanecen residentes en la memoria de las GPU.
Lecciones Prácticas
- Alucinación: Los modelos locales inventan citas y fechas con confianza. Un verificador revisa cada cita, fecha y número Bates contra el material fuente y bloquea contenido sin fundamento. Un revisor adversarial actúa en la cima.
- Envenenamiento del pipeline: El constructor de paquetes de evidencia estaba recogiendo sus propias salidas anteriores como evidencia del cliente, haciendo que los modelos se "fundamentaran" en basura que ellos mismos escribieron antes — un borrador citó una RTX 3060 como número Bates. Solucionado limpiando el historial de entrada del constructor.
Las tareas más ligeras usan mucho menos: combinar y sellar con Bates los documentos es puramente CPU (PyMuPDF + Tesseract), y los resúmenes simples solo tocan Gemma y el enrutador.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

Desarrollador Lanza Juego en Steam con Código de Claude: Lecciones sobre Programación por Vibes vs. Ingeniería por Vibes
Un desarrollador lanzó Codex Mortis, un juego de tipo bullet hell con temática de nigromancia en Steam, utilizando Claude Code para un desarrollo asistido por IA. El proyecto requirió dos reescrituras completas tras el prototipo inicial, lo que destaca la brecha entre el prototipo y la producción.

Claude Code permite que un recién graduado desarrolle en solitario un juego multijugador en tiempo real
Un recién graduado sin experiencia formal en ingeniería de software usó Claude Code para construir imageclash.net, un juego multijugador en tiempo real con autoescalado serverless de GPU, experiencia de usuario con el móvil como mando y gestión del ciclo de vida de imágenes basada en R2.

Compañero Matutino Automatizado con Generación de Fondos de Pantalla de Citas Usando Remotion
Un desarrollador creó un compañero matutino automatizado que extrae citas de 107 libros en una bóveda de Obsidian, genera resúmenes personalizados con hilos de Reddit y propuestas de diario, y luego crea fondos de pantalla personalizados usando Remotion con selección de diseño impulsada por IA.

Desarrollador no técnico crea API de riesgos cripto con Claude en una tarde.
Un ex operador de futuros sin experiencia en desarrollo utilizó Claude para construir y desplegar RiskSnap, un endpoint de FastAPI que evalúa carteras de criptomonedas en 7 dimensiones de riesgo. El proyecto incluye una API en vivo, un dominio personalizado y documentación completa.