Configuración y Pruebas de vLLM en Servidor con 10x NVIDIA V100 y 320GB de VRAM

✍️ OpenClawRadar📅 Publicado: 15 de abril de 2026🔗 Source

Configuración de Hardware y Notas de Construcción

Un desarrollador ha construido un servidor de IA local con 10 GPUs Tesla V100 SXM2 de 32GB (320GB de VRAM total) en un sistema AMD Threadripper PRO. La configuración utiliza Ubuntu 24.04 sin interfaz gráfica con controlador NVIDIA 580.126.20. La topología de GPU consiste en dos mallas cuadradas NVLink (GPUs 0-3, 4/5/8/9) más un par NV6 (GPUs 6-7).

Lo que Funciona en V100 con vLLM

FP16 sin cuantizar: Ruta principal usando --dtype half
bitsandbytes de 4 bits: Funciona para modelos demasiado grandes para FP16
TRITON_ATTN: Retroceso automático ya que FlashAttention2 requiere SM 80+
Paralelismo de Tensor/Pipeline: TP=4 y TP=4 PP=2 ambos probados exitosamente

Lo que No Funciona en V100

GPTQ: Kernels ExLlamaV2 rotos en SM 7.0 (problema vLLM #2165)
AWQ: Requiere SM 75+
FP8: Requiere SM 75+. MiniMax M2.5 usa FP8 internamente — sin posibilidades desde el inicio.
FlashAttention2: Requiere SM 80+
DeepSeek MLA: Solo para Hopper/Blackwell. DeepSeek V3/R1 completo no puede ejecutarse en vLLM + V100.

Requisitos de Construcción y Correcciones Críticas

PyTorch 2.11.0+cu126 es requerido — cu126 es la última versión con soporte para V100 ya que cu128+ elimina Volta. La compilación desde fuente requiere TORCH_CUDA_ARCH_LIST="7.0" y MAX_JOBS=20. Se necesita un parche de kernel MoE para el problema #36008, cambiando B.size(1) a B.size(0) en fused_moe.py (2 líneas). PYTHONNOUSERSITE=1 es requerido para aislar el entorno conda de paquetes del sistema obsoletos.

Corrección Crítica de Dependencia NCCL: pip install -e . trae nvidia-nccl-cu13 junto con nvidia-nccl-cu12. La biblioteca cu13 se carga en tiempo de ejecución y hace referencia a símbolos CUDA 13 que no existen en el entorno de ejecución cu126, resultando en "error NCCL: error de cuda no manejado" en cada lanzamiento multi-GPU. La solución implica desinstalar todos los paquetes nvidia-* y gestionar las dependencias cuidadosamente.

📖 Leer la fuente completa: r/LocalLLaMA

👀 Ver también

Guías

Creando habilidades personalizadas para Claude Co-Work: Mejores prácticas y formatos.

Explora las mejores prácticas para crear habilidades personalizadas para Claude Co-Work con consejos específicos de formato y recomendaciones de implementación basadas en experiencias de usuarios.

13 feb 2026, 15:45 UTC

OpenClawRadar

Guías

Optimización del Rendimiento en Java: Ocho Antipatrones que Ralentizan tu Código

Una aplicación de procesamiento de pedidos en Java mejoró de 1.198 ms a 239 ms en tiempo transcurrido, de 85.000 a 419.000 pedidos por segundo, y de 1 GB a 139 MB en uso de memoria heap al corregir ocho antipatrones comunes identificados mediante perfiles de Java Flight Recording.

20 mar 2026, 18:45 UTC

OpenClawRadar

Guías

Cómo los Prompts de Evaluación de Modelos Pequeños Pueden Engañar y Cómo Solucionarlos

Una publicación de Reddit explica que las indicaciones de evaluación para modelos pequeños a menudo producen resultados engañosos debido a que activan las vías cognitivas incorrectas en los transformadores, identificando específicamente tres modos distintos: recuperación de hechos, aplicación/seguimiento de instrucciones e inferencia emocional/empática.

9 mar 2026, 11:45 UTC

OpenClawRadar

Guías

Construyendo Habilidades de Claude para Automatizar Procesos Cognitivos

Claude Code incluye un creador de habilidades integrado que te permite construir habilidades impulsadas por IA describiendo procesos en lenguaje natural en lugar de escribir código. La fuente describe la creación de una habilidad de validación de startups que redujo un proceso manual de 2 días a 15 minutos.

12 mar 2026, 15:45 UTC

OpenClawRadar