Configuración y Pruebas de vLLM en Servidor con 10x NVIDIA V100 y 320GB de VRAM

✍️ OpenClawRadar📅 Publicado: 15 de abril de 2026🔗 Source
Configuración y Pruebas de vLLM en Servidor con 10x NVIDIA V100 y 320GB de VRAM
Ad

Configuración de Hardware y Notas de Construcción

Un desarrollador ha construido un servidor de IA local con 10 GPUs Tesla V100 SXM2 de 32GB (320GB de VRAM total) en un sistema AMD Threadripper PRO. La configuración utiliza Ubuntu 24.04 sin interfaz gráfica con controlador NVIDIA 580.126.20. La topología de GPU consiste en dos mallas cuadradas NVLink (GPUs 0-3, 4/5/8/9) más un par NV6 (GPUs 6-7).

Lo que Funciona en V100 con vLLM

  • FP16 sin cuantizar: Ruta principal usando --dtype half
  • bitsandbytes de 4 bits: Funciona para modelos demasiado grandes para FP16
  • TRITON_ATTN: Retroceso automático ya que FlashAttention2 requiere SM 80+
  • Paralelismo de Tensor/Pipeline: TP=4 y TP=4 PP=2 ambos probados exitosamente

Lo que No Funciona en V100

  • GPTQ: Kernels ExLlamaV2 rotos en SM 7.0 (problema vLLM #2165)
  • AWQ: Requiere SM 75+
  • FP8: Requiere SM 75+. MiniMax M2.5 usa FP8 internamente — sin posibilidades desde el inicio.
  • FlashAttention2: Requiere SM 80+
  • DeepSeek MLA: Solo para Hopper/Blackwell. DeepSeek V3/R1 completo no puede ejecutarse en vLLM + V100.
Ad

Requisitos de Construcción y Correcciones Críticas

PyTorch 2.11.0+cu126 es requerido — cu126 es la última versión con soporte para V100 ya que cu128+ elimina Volta. La compilación desde fuente requiere TORCH_CUDA_ARCH_LIST="7.0" y MAX_JOBS=20. Se necesita un parche de kernel MoE para el problema #36008, cambiando B.size(1) a B.size(0) en fused_moe.py (2 líneas). PYTHONNOUSERSITE=1 es requerido para aislar el entorno conda de paquetes del sistema obsoletos.

Corrección Crítica de Dependencia NCCL: pip install -e . trae nvidia-nccl-cu13 junto con nvidia-nccl-cu12. La biblioteca cu13 se carga en tiempo de ejecución y hace referencia a símbolos CUDA 13 que no existen en el entorno de ejecución cu126, resultando en "error NCCL: error de cuda no manejado" en cada lanzamiento multi-GPU. La solución implica desinstalar todos los paquetes nvidia-* y gestionar las dependencias cuidadosamente.

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

OpenClaw Multi-Agent: 7 agentes aislados por 5/mes
Guías

OpenClaw Multi-Agent: 7 agentes aislados por 5/mes

Guía completa de arquitectura para ejecutar agentes AI especializados con memoria enfocada, permisos mínimos y enrutamiento inteligente de modelos.

@procoder
Lista de Verificación Pre-Lanzamiento de OpenClaw para Seguridad y Confiabilidad
Guías

Lista de Verificación Pre-Lanzamiento de OpenClaw para Seguridad y Confiabilidad

Un usuario de Reddit comparte una lista de verificación práctica de seis puntos para la configuración de OpenClaw antes de ponerlo en marcha, que cubre control de acceso, reglas de seguridad, gestión de memoria, pruebas de automatización, validación de entrega y manejo de fallos.

OpenClawRadar
Configuración de Servidores MCP en la Interfaz Web de llama-server: Una Guía Práctica
Guías

Configuración de Servidores MCP en la Interfaz Web de llama-server: Una Guía Práctica

Un usuario de Reddit comparte pasos específicos para configurar servidores MCP en la interfaz web de llama-server, incluyendo la instalación de uv, la creación de un archivo config.json con definiciones de servidores, la ejecución de mcp-proxy y la modificación de URLs para una integración adecuada.

OpenClawRadar
Guía de lanzamiento de código abierto para proyectos de IA local y LLM de código abierto
Guías

Guía de lanzamiento de código abierto para proyectos de IA local y LLM de código abierto

Un manual de código abierto aborda los problemas de descubrimiento para proyectos de LLM e IA local al proporcionar orientación estructurada sobre la preparación previa al lanzamiento, la ejecución del día del lanzamiento y el seguimiento posterior. Incluye plantillas y estrategias para la distribución en comunidades, el alcance a creadores y la optimización SEO.

OpenClawRadar