vLLM-Einrichtung und -Tests auf einem 10x-NVIDIA-V100-Server mit 320 GB VRAM

✍️ OpenClawRadar📅 Veröffentlicht: 15. April 2026🔗 Source

Hardware-Konfiguration und Build-Hinweise

Ein Entwickler hat einen lokalen KI-Server mit 10x Tesla V100 SXM2 32GB GPUs (insgesamt 320GB VRAM) auf einem AMD Threadripper PRO-System aufgebaut. Das Setup verwendet Ubuntu 24.04 headless mit NVIDIA-Treiber 580.126.20. Die GPU-Topologie besteht aus zwei NVLink-Quad-Meshes (GPUs 0-3, 4/5/8/9) plus einem NV6-Paar (GPUs 6-7).

Was auf V100 mit vLLM funktioniert

FP16 unquantisiert: Hauptpfad mit --dtype half
bitsandbytes 4-Bit: Funktioniert für Modelle, die für FP16 zu groß sind
TRITON_ATTN: Automatischer Fallback, da FlashAttention2 SM 80+ erfordert
Tensor-/Pipeline-Parallelität: TP=4 und TP=4 PP=2 beide erfolgreich getestet

Was auf V100 nicht funktioniert

GPTQ: ExLlamaV2-Kernel auf SM 7.0 defekt (vLLM Issue #2165)
AWQ: Erfordert SM 75+
FP8: Erfordert SM 75+. MiniMax M2.5 verwendet intern FP8 — von vornherein nicht lauffähig.
FlashAttention2: Erfordert SM 80+
DeepSeek MLA: Nur für Hopper/Blackwell. Vollständiges DeepSeek V3/R1 kann auf vLLM + V100 nicht ausgeführt werden.

Build-Anforderungen und kritische Korrekturen

PyTorch 2.11.0+cu126 ist erforderlich — cu126 ist die letzte Version mit V100-Unterstützung, da cu128+ Volta fallen lässt. Die Quellkompilierung erfordert TORCH_CUDA_ARCH_LIST="7.0" und MAX_JOBS=20. Ein MoE-Kernel-Patch ist für Issue #36008 erforderlich, der B.size(1) in B.size(0) in fused_moe.py ändert (2 Zeilen). PYTHONNOUSERSITE=1 ist erforderlich, um die Conda-Umgebung von veralteten Systempaketen zu isolieren.

Kritische NCCL-Abhängigkeitskorrektur: pip install -e . zieht nvidia-nccl-cu13 neben nvidia-nccl-cu12 ein. Die cu13-Bibliothek wird zur Laufzeit geladen und verweist auf CUDA 13-Symbole, die in der cu126-Laufzeitumgebung nicht existieren, was bei jedem Multi-GPU-Start zu "NCCL error: unhandled cuda error" führt. Die Korrektur beinhaltet die Deinstallation aller nvidia-*-Pakete und sorgfältiges Abhängigkeitsmanagement.

📖 Read the full source: r/LocalLLaMA

👀 Siehe auch

Anleitungen

Optimierung von GLM-4.7-Flash auf dem M4 Mac Mini mit 24 GB RAM

Ein Entwickler teilt spezifische Konfigurationsdetails für den Betrieb von GLM-4.7-Flash auf einem M4 Mac Mini mit 24 GB RAM, einschließlich Q3_K_XL-Quantisierung, 32k Kontextgröße mit MLA und den tatsächlichen Speicherzuweisungen für Metal.

24. Feb. 2026, 01:45 UTC

OpenClawRadar

Anleitungen

Sicheres Ausführen von llama.cpp nativen Tools (exec_shell_command) mit mehrfacher Sandboxing unter Linux

Eine praktische Anleitung zur Aktivierung der nativen Tools von llama.cpp, insbesondere exec_shell_command, und deren Ausführung in mehreren Sandboxen (Firejail + winzige Alpine VM) für sicheres Web-Fetching und Befehlsausführung über die llama-server Web-Oberfläche.

7. Juni 2026, 00:16 UTC

OpenClawRadar

Anleitungen

Todoist-Connector von Claude entfernt, individuelle Einrichtung erforderlich

Der offizielle Todoist-Connector ist in Claude nicht mehr verfügbar. Benutzer können Todoist als benutzerdefinierten Connector über die MCP-URL https://ai.todoist.net/mcp hinzufügen, dies erfordert jedoch ein Claude Pro- oder Max-Abonnement.

15. Apr. 2026, 01:45 UTC

OpenClawRadar

Anleitungen

OpenClaw v2.0-Update: Wichtige Checkliste vor dem Update, um Breaking Changes zu vermeiden

Das neueste Update von OpenClaw führt 12 Breaking Changes ein, ein neues Plugin-System und über 30 Sicherheitspatches. Diese Anleitung beschreibt fünf wesentliche Prüfungen, die vor dem Update durchgeführt werden sollten, einschließlich der Umbenennung von Umgebungsvariablen, der Migration des Zustandsverzeichnisses und der Neukonfiguration der Browser-Automatisierung.

25. März 2026, 12:45 UTC

OpenClawRadar