OpenClaw auf 2 modifizierten 2080 Ti lokal hosten vLLM Guide

Ein Reddit-Benutzer auf r/openclaw beschreibt sein Setup für lokales KI-Hosting mit zwei modifizierten 22GB 2080 Ti GPUs, die von Alibaba gekauft und über NVLink verbunden sind, und verwendet vLLM anstelle von Ollama für Tensor-Parallelität. Ziel ist ein Modell mit 20-30B Parametern, und die Community wird um Empfehlungen gebeten, die für leichte Programmierarbeiten, Homelab-Wartung, RAG, E-Mail-Sortierung und Dokumentenerstellung geeignet sind – schwere Programmieraufgaben werden an einen Codex OAuth-Dienst delegiert.

Wichtige Details aus dem Beitrag:

Hardware: 2x 22 GB (modifizierte) 2080 Ti von Alibaba, wahrscheinlich ehemalige Mining-Karten. NVLink-Brücke verbindet sie.
Software: vLLM wurde explizit gegenüber Ollama gewählt, um Tensor-Parallelität über beide GPUs zu nutzen.
Ziel: Ein lokales Modell im Bereich von 20-30B Parametern für OpenClaw ausführen, mit Aufgaben wie leichter Programmierung, Homelab-Verwaltung, RAG, E-Mail-Sortierung und Dokumentengenerierung.
Benutzer äußern Reue über den Impulskauf und suchen nach Bestätigung oder praktischen Modellvorschlägen.

Die Community-Diskussion (unten verlinkt) bietet Erfahrungsberichte ähnlicher Setups, Modellvorschläge (z. B. CodeLlama, DeepSeek Coder oder Allzweckmodelle wie Mixtral 8x7B) sowie Tipps zur Speicheroptimierung und zum Prompt-Engineering für vLLM. Einige Kommentatoren warnen vor der Zuverlässigkeit der modifizierten GPUs und empfehlen, zuerst mit kleineren Modellen zu testen.

📖 Read the full source: r/openclaw

OpenClaw auf 2 modifizierten 2080 Ti lokal mit vLLM hosten: Praxiserfahrung

👀 Siehe auch

Erstellen eines Steam-Spiels in 10 Tagen mit Claude Code: Technische Herausforderungen und Arbeitsablauf

Claude Code vs Codex: Aufschlüsselung eines praktischen Experiments mit 6 Projekten

SDR nutzt KI-generierte Video-Follow-ups, um kalte D2C-Interessenten wieder zu aktivieren

Entwickler teilt SALT-System-Prompt-Ansatz für kollaborativere KI-Interaktionen