vLLM-Einrichtung und -Tests auf einem 10x-NVIDIA-V100-Server mit 320 GB VRAM

✍️ OpenClawRadar📅 Veröffentlicht: 15. April 2026🔗 Source
vLLM-Einrichtung und -Tests auf einem 10x-NVIDIA-V100-Server mit 320 GB VRAM
Ad

Hardware-Konfiguration und Build-Hinweise

Ein Entwickler hat einen lokalen KI-Server mit 10x Tesla V100 SXM2 32GB GPUs (insgesamt 320GB VRAM) auf einem AMD Threadripper PRO-System aufgebaut. Das Setup verwendet Ubuntu 24.04 headless mit NVIDIA-Treiber 580.126.20. Die GPU-Topologie besteht aus zwei NVLink-Quad-Meshes (GPUs 0-3, 4/5/8/9) plus einem NV6-Paar (GPUs 6-7).

Was auf V100 mit vLLM funktioniert

  • FP16 unquantisiert: Hauptpfad mit --dtype half
  • bitsandbytes 4-Bit: Funktioniert für Modelle, die für FP16 zu groß sind
  • TRITON_ATTN: Automatischer Fallback, da FlashAttention2 SM 80+ erfordert
  • Tensor-/Pipeline-Parallelität: TP=4 und TP=4 PP=2 beide erfolgreich getestet

Was auf V100 nicht funktioniert

  • GPTQ: ExLlamaV2-Kernel auf SM 7.0 defekt (vLLM Issue #2165)
  • AWQ: Erfordert SM 75+
  • FP8: Erfordert SM 75+. MiniMax M2.5 verwendet intern FP8 — von vornherein nicht lauffähig.
  • FlashAttention2: Erfordert SM 80+
  • DeepSeek MLA: Nur für Hopper/Blackwell. Vollständiges DeepSeek V3/R1 kann auf vLLM + V100 nicht ausgeführt werden.
Ad

Build-Anforderungen und kritische Korrekturen

PyTorch 2.11.0+cu126 ist erforderlich — cu126 ist die letzte Version mit V100-Unterstützung, da cu128+ Volta fallen lässt. Die Quellkompilierung erfordert TORCH_CUDA_ARCH_LIST="7.0" und MAX_JOBS=20. Ein MoE-Kernel-Patch ist für Issue #36008 erforderlich, der B.size(1) in B.size(0) in fused_moe.py ändert (2 Zeilen). PYTHONNOUSERSITE=1 ist erforderlich, um die Conda-Umgebung von veralteten Systempaketen zu isolieren.

Kritische NCCL-Abhängigkeitskorrektur: pip install -e . zieht nvidia-nccl-cu13 neben nvidia-nccl-cu12 ein. Die cu13-Bibliothek wird zur Laufzeit geladen und verweist auf CUDA 13-Symbole, die in der cu126-Laufzeitumgebung nicht existieren, was bei jedem Multi-GPU-Start zu "NCCL error: unhandled cuda error" führt. Die Korrektur beinhaltet die Deinstallation aller nvidia-*-Pakete und sorgfältiges Abhängigkeitsmanagement.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

GitHub-Repo-Besitzer: Nutzen Sie das --author-Flag von Git, um KI-Bot-Spam zu blockieren
Anleitungen

GitHub-Repo-Besitzer: Nutzen Sie das --author-Flag von Git, um KI-Bot-Spam zu blockieren

Archestra bekämpfte KI-Kommentar-/PR-Spam, indem sie die Einstellung „Limit to prior contributors“ von GitHub und das Flag --author von Git ausnutzte, um echte Menschen über einen Captcha-basierten Onboarding-Prozess auf eine Whitelist zu setzen.

OpenClawRadar
Claude vs GPT für die akademische Doktorarbeit: Bewahrung der fachlichen Bedeutung in Methodenabschnitten
Anleitungen

Claude vs GPT für die akademische Doktorarbeit: Bewahrung der fachlichen Bedeutung in Methodenabschnitten

Ein Doktorand vergleicht Claude und GPT für die Überarbeitung von Aufsätzen über Computer Vision / Hardware Co-Design und stellt fest, dass Claude zuverlässiger die technische Bedeutung und die Argumentationsstruktur bewahrt, während GPT manchmal Aussagen vereinfacht.

OpenClawRadar
Methodik für konsistentes Benchmarking von lokalen vs. Cloud-LLMs
Anleitungen

Methodik für konsistentes Benchmarking von lokalen vs. Cloud-LLMs

Ein Entwickler stellt ein Messaufbau vor, der sequenzielle Anfragen und regelbasierte Bewertung nutzt, um lokale Modelle (über llama.cpp, vLLM, Ollama) mit Cloud-APIs (GPT-5.4, Claude Sonnet 4.6, Gemini 3.1 Pro) über einen einheitlichen Endpunkt wie ZenMux zu vergleichen.

OpenClawRadar
Optimierung von AutoResearch auf der RTX 5090: Was scheiterte und was funktionierte
Anleitungen

Optimierung von AutoResearch auf der RTX 5090: Was scheiterte und was funktionierte

Ein Entwickler teilt spezifische Konfigurationsdetails für den Betrieb von AutoResearch auf einem RTX 5090/Blackwell-Setup, einschließlich fehlgeschlagener Ansätze, die funktional erschienen, aber schlecht abschnitten, und der funktionierenden Konfiguration, die stabile Ergebnisse mit TOTAL_BATCH_SIZE=2**17 und TIME_BUDGET=1200 erzielte.

OpenClawRadar