vLLM-Einrichtung und -Tests auf einem 10x-NVIDIA-V100-Server mit 320 GB VRAM

Hardware-Konfiguration und Build-Hinweise
Ein Entwickler hat einen lokalen KI-Server mit 10x Tesla V100 SXM2 32GB GPUs (insgesamt 320GB VRAM) auf einem AMD Threadripper PRO-System aufgebaut. Das Setup verwendet Ubuntu 24.04 headless mit NVIDIA-Treiber 580.126.20. Die GPU-Topologie besteht aus zwei NVLink-Quad-Meshes (GPUs 0-3, 4/5/8/9) plus einem NV6-Paar (GPUs 6-7).
Was auf V100 mit vLLM funktioniert
- FP16 unquantisiert: Hauptpfad mit
--dtype half - bitsandbytes 4-Bit: Funktioniert für Modelle, die für FP16 zu groß sind
- TRITON_ATTN: Automatischer Fallback, da FlashAttention2 SM 80+ erfordert
- Tensor-/Pipeline-Parallelität: TP=4 und TP=4 PP=2 beide erfolgreich getestet
Was auf V100 nicht funktioniert
- GPTQ: ExLlamaV2-Kernel auf SM 7.0 defekt (vLLM Issue #2165)
- AWQ: Erfordert SM 75+
- FP8: Erfordert SM 75+. MiniMax M2.5 verwendet intern FP8 — von vornherein nicht lauffähig.
- FlashAttention2: Erfordert SM 80+
- DeepSeek MLA: Nur für Hopper/Blackwell. Vollständiges DeepSeek V3/R1 kann auf vLLM + V100 nicht ausgeführt werden.
Build-Anforderungen und kritische Korrekturen
PyTorch 2.11.0+cu126 ist erforderlich — cu126 ist die letzte Version mit V100-Unterstützung, da cu128+ Volta fallen lässt. Die Quellkompilierung erfordert TORCH_CUDA_ARCH_LIST="7.0" und MAX_JOBS=20. Ein MoE-Kernel-Patch ist für Issue #36008 erforderlich, der B.size(1) in B.size(0) in fused_moe.py ändert (2 Zeilen). PYTHONNOUSERSITE=1 ist erforderlich, um die Conda-Umgebung von veralteten Systempaketen zu isolieren.
Kritische NCCL-Abhängigkeitskorrektur: pip install -e . zieht nvidia-nccl-cu13 neben nvidia-nccl-cu12 ein. Die cu13-Bibliothek wird zur Laufzeit geladen und verweist auf CUDA 13-Symbole, die in der cu126-Laufzeitumgebung nicht existieren, was bei jedem Multi-GPU-Start zu "NCCL error: unhandled cuda error" führt. Die Korrektur beinhaltet die Deinstallation aller nvidia-*-Pakete und sorgfältiges Abhängigkeitsmanagement.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

GitHub-Repo-Besitzer: Nutzen Sie das --author-Flag von Git, um KI-Bot-Spam zu blockieren
Archestra bekämpfte KI-Kommentar-/PR-Spam, indem sie die Einstellung „Limit to prior contributors“ von GitHub und das Flag --author von Git ausnutzte, um echte Menschen über einen Captcha-basierten Onboarding-Prozess auf eine Whitelist zu setzen.

Claude vs GPT für die akademische Doktorarbeit: Bewahrung der fachlichen Bedeutung in Methodenabschnitten
Ein Doktorand vergleicht Claude und GPT für die Überarbeitung von Aufsätzen über Computer Vision / Hardware Co-Design und stellt fest, dass Claude zuverlässiger die technische Bedeutung und die Argumentationsstruktur bewahrt, während GPT manchmal Aussagen vereinfacht.

Methodik für konsistentes Benchmarking von lokalen vs. Cloud-LLMs
Ein Entwickler stellt ein Messaufbau vor, der sequenzielle Anfragen und regelbasierte Bewertung nutzt, um lokale Modelle (über llama.cpp, vLLM, Ollama) mit Cloud-APIs (GPT-5.4, Claude Sonnet 4.6, Gemini 3.1 Pro) über einen einheitlichen Endpunkt wie ZenMux zu vergleichen.

Optimierung von AutoResearch auf der RTX 5090: Was scheiterte und was funktionierte
Ein Entwickler teilt spezifische Konfigurationsdetails für den Betrieb von AutoResearch auf einem RTX 5090/Blackwell-Setup, einschließlich fehlgeschlagener Ansätze, die funktional erschienen, aber schlecht abschnitten, und der funktionierenden Konfiguration, die stabile Ergebnisse mit TOTAL_BATCH_SIZE=2**17 und TIME_BUDGET=1200 erzielte.