Configuración y Pruebas de vLLM en Servidor con 10x NVIDIA V100 y 320GB de VRAM

✍️ OpenClawRadar📅 Publicado: 15 de abril de 2026🔗 Source
Configuración y Pruebas de vLLM en Servidor con 10x NVIDIA V100 y 320GB de VRAM
Ad

Configuración de Hardware y Notas de Construcción

Un desarrollador ha construido un servidor de IA local con 10 GPUs Tesla V100 SXM2 de 32GB (320GB de VRAM total) en un sistema AMD Threadripper PRO. La configuración utiliza Ubuntu 24.04 sin interfaz gráfica con controlador NVIDIA 580.126.20. La topología de GPU consiste en dos mallas cuadradas NVLink (GPUs 0-3, 4/5/8/9) más un par NV6 (GPUs 6-7).

Lo que Funciona en V100 con vLLM

  • FP16 sin cuantizar: Ruta principal usando --dtype half
  • bitsandbytes de 4 bits: Funciona para modelos demasiado grandes para FP16
  • TRITON_ATTN: Retroceso automático ya que FlashAttention2 requiere SM 80+
  • Paralelismo de Tensor/Pipeline: TP=4 y TP=4 PP=2 ambos probados exitosamente

Lo que No Funciona en V100

  • GPTQ: Kernels ExLlamaV2 rotos en SM 7.0 (problema vLLM #2165)
  • AWQ: Requiere SM 75+
  • FP8: Requiere SM 75+. MiniMax M2.5 usa FP8 internamente — sin posibilidades desde el inicio.
  • FlashAttention2: Requiere SM 80+
  • DeepSeek MLA: Solo para Hopper/Blackwell. DeepSeek V3/R1 completo no puede ejecutarse en vLLM + V100.
Ad

Requisitos de Construcción y Correcciones Críticas

PyTorch 2.11.0+cu126 es requerido — cu126 es la última versión con soporte para V100 ya que cu128+ elimina Volta. La compilación desde fuente requiere TORCH_CUDA_ARCH_LIST="7.0" y MAX_JOBS=20. Se necesita un parche de kernel MoE para el problema #36008, cambiando B.size(1) a B.size(0) en fused_moe.py (2 líneas). PYTHONNOUSERSITE=1 es requerido para aislar el entorno conda de paquetes del sistema obsoletos.

Corrección Crítica de Dependencia NCCL: pip install -e . trae nvidia-nccl-cu13 junto con nvidia-nccl-cu12. La biblioteca cu13 se carga en tiempo de ejecución y hace referencia a símbolos CUDA 13 que no existen en el entorno de ejecución cu126, resultando en "error NCCL: error de cuda no manejado" en cada lanzamiento multi-GPU. La solución implica desinstalar todos los paquetes nvidia-* y gestionar las dependencias cuidadosamente.

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

OpenClaw 102: Consejos Actualizados de Configuración para Seguridad y Eficiencia
Guías

OpenClaw 102: Consejos Actualizados de Configuración para Seguridad y Eficiencia

Un usuario de Reddit comparte consejos actualizados sobre la configuración de OpenClaw, incluyendo el cifrado de claves API con scripts de Windows PowerShell, defensas contra inyección de prompts en AGENTS.md, el uso de Tailscale para acceso remoto y reglas anti-bucle para evitar fallos repetitivos.

OpenClawRadar
Consejos de configuración de OpenClaw desde la experiencia de un usuario: MCP de Gmail, banderas de perfil y problemas de red.
Guías

Consejos de configuración de OpenClaw desde la experiencia de un usuario: MCP de Gmail, banderas de perfil y problemas de red.

Un usuario que ejecuta OpenClaw en una Mac a través de UTM con una máquina virtual Ubuntu comparte problemas de configuración específicos encontrados: el servidor MCP de Gmail requiere el parámetro html_body en lugar de body, se necesita la bandera --profile prod para evitar una identidad de desarrollo codificada, y las claves API deben colocarse en auth-profiles.json mediante el comando paste-token.

OpenClawRadar
Implementando un Sistema de Meditación Recurrente para la Coherencia del Agente OpenClaw
Guías

Implementando un Sistema de Meditación Recurrente para la Coherencia del Agente OpenClaw

Un desarrollador comparte un sistema estructurado de reflexión para agentes OpenClaw utilizando una cadena específica de archivos que incluye meditations.md, reflections/*.md y archivos de identidad. El ciclo nocturno implica revisar y añadir contenido a estos archivos para fomentar la comprensión de cambios de comportamiento duraderos.

OpenClawRadar
OpenClaw 5.28: Plugin Codex roto tras la actualización — Solución con shim de enlace simbólico
Guías

OpenClaw 5.28: Plugin Codex roto tras la actualización — Solución con shim de enlace simbólico

OpenClaw 5.28 rompe el plugin Codex por discrepancia en la ruta del binario. Solución: crear un enlace simbólico desde la ruta esperada a bin/codex.

OpenClawRadar