Lokales Multi-Agenten-Setup mit vLLM, Claude Code und gpt-oss-120b unter Linux

✍️ OpenClawRadar📅 Veröffentlicht: 26. März 2026🔗 Source
Lokales Multi-Agenten-Setup mit vLLM, Claude Code und gpt-oss-120b unter Linux
Ad

Ein Entwickler teilte seine Erfahrungen mit der Einrichtung eines vollständig lokalen, parallelen Multi-Agenten-Codierungssetups unter Linux, nachdem er von Windows gewechselt hatte. Die Konfiguration nutzt vLLM für parallele Inferenz, Claude Code für die Agenten-Orchestrierung und ein großes Sprachmodell für Codierungsaufgaben.

Setup-Komponenten

  • vLLM Docker-Container: Wird für einfache Bereitstellung und parallele Inferenz verwendet
  • Claude Code: Handhabt Vibecoding und die Orchestrierung von Agententeams, konfiguriert, um auf den vLLM localhost-Endpunkt statt auf Cloud-Anbieter zu zeigen
  • gpt-oss:120b: Dient als Codierungs-Agent
  • RTX Pro 6000 Blackwell MaxQ: Primäre GPU für die Arbeitslast
  • Dual-Boot Ubuntu: Betriebssystem-Setup
Ad

Leistung und Workflow-Verbesserungen

Der Entwickler nutzte zuvor Ollama und LM Studio, stellte jedoch fest, dass diese Anfragen sequenziell verarbeiteten und nach mehreren Nachrichtenwechseln und Tool-Aufrufen Verlangsamungen auftraten. Mit vLLM erreichte er parallele Verarbeitung, die sein Erlebnis "turboaufgeladen" hat.

In Tests bewältigte das Setup 4 gleichzeitig zusammenarbeitende Agenten, wie in einer Video-Demonstration gezeigt, wobei die GPU in der Lage war, kontinuierlich 8 Agenten parallel zu unterstützen. Das einzige festgestellte Problem war ein Durchsatzrückgang, der je nach Agent variiert.

Agententeam-Aufgaben, die zuvor sequenziell Stunden dauerten, können nun je nach Projektumfang in etwa 30 Minuten erledigt werden. Der Entwickler schätzt, dass das Hinzufügen einer zweiten MaxQ GPU das System potenziell auf Dutzende gleichzeitiger Agenten skalieren könnte.

Dieser parallele Ansatz ermöglicht Vibecoding mehrerer Projekte lokal und gleichzeitig, obwohl er in bestimmten Szenarien etwas erhöhte Latenz verursachen kann. Der Entwickler fand diesen Kompromiss vorzuziehen gegenüber der Abarbeitung von Projekten mit jeweils nur einem Agenten.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Entwicklung selbstheilender KI-Agenten für Produktionssysteme
Anwendungsfälle

Entwicklung selbstheilender KI-Agenten für Produktionssysteme

Ein Team, das einen KI-betriebenen Shop betreibt, baute eine selbstheilende Infrastruktur, in der Agenten Ausfälle erkennen, Ursachen diagnostizieren und autonom ohne menschliches Eingreifen wiederherstellen, insbesondere bei Ausfällen um 3 Uhr morgens.

OpenClawRadar
Verwendung von MCP-Servern, um Claude mit Live-Datenbanken für On-Demand-Analysen zu verbinden
Anwendungsfälle

Verwendung von MCP-Servern, um Claude mit Live-Datenbanken für On-Demand-Analysen zu verbinden

Ein Entwickler hat einen MCP-Server für CybersecTools erstellt, der Claude mit einer Datenbank von über 10.000 Cybersicherheitsprodukten verbindet und so Live-Datenanalyse anstelle traditioneller Dashboards ermöglicht. Der Server bietet 40 Werkzeuge zum Vergleich von Anbietern, zur Analyse von Marktkategorien und zur Überprüfung der NIST CSF 2.0-Abdeckung.

OpenClawRadar
Finanzanalyst nutzt Claude Code, um DCF-Modell ohne Programmierkenntnisse zu erstellen
Anwendungsfälle

Finanzanalyst nutzt Claude Code, um DCF-Modell ohne Programmierkenntnisse zu erstellen

Ein Finanzanalyst ohne Terminalerfahrung nutzte Claude Code, um in 20-25 Minuten ein Discounted-Cashflow-Modell zu erstellen, statt 1-2 Tage. Das Tool las Finanzdateien und erzeugte nach Eingabe von /dcf [Firmenname] ein vollständig strukturiertes Excel-Modell mit funktionierenden Formeln.

OpenClawRadar
Tesla Model 3 Computer auf dem Schreibtisch mit gebrauchten Teilen betreiben
Anwendungsfälle

Tesla Model 3 Computer auf dem Schreibtisch mit gebrauchten Teilen betreiben

Ein Forscher hat den Computer eines Tesla Model 3 erfolgreich auf einem Schreibtisch gestartet, indem er Teile von Unfallwagen verwendete. Dafür waren ein 12V-Netzteil, ein Touchscreen und spezielle Kabel erforderlich. Der Aufbau offenbarte ein internes Netzwerk mit SSH- und Webservern, die unter bestimmten IP-Adressen erreichbar sind.

OpenClawRadar