Lokales Multi-Agenten-Setup: vLLM, Claude Code & gpt-oss-120b

Ein Entwickler teilte seine Erfahrungen mit der Einrichtung eines vollständig lokalen, parallelen Multi-Agenten-Codierungssetups unter Linux, nachdem er von Windows gewechselt hatte. Die Konfiguration nutzt vLLM für parallele Inferenz, Claude Code für die Agenten-Orchestrierung und ein großes Sprachmodell für Codierungsaufgaben.

Setup-Komponenten

vLLM Docker-Container: Wird für einfache Bereitstellung und parallele Inferenz verwendet
Claude Code: Handhabt Vibecoding und die Orchestrierung von Agententeams, konfiguriert, um auf den vLLM localhost-Endpunkt statt auf Cloud-Anbieter zu zeigen
gpt-oss:120b: Dient als Codierungs-Agent
RTX Pro 6000 Blackwell MaxQ: Primäre GPU für die Arbeitslast
Dual-Boot Ubuntu: Betriebssystem-Setup

Leistung und Workflow-Verbesserungen

Der Entwickler nutzte zuvor Ollama und LM Studio, stellte jedoch fest, dass diese Anfragen sequenziell verarbeiteten und nach mehreren Nachrichtenwechseln und Tool-Aufrufen Verlangsamungen auftraten. Mit vLLM erreichte er parallele Verarbeitung, die sein Erlebnis "turboaufgeladen" hat.

In Tests bewältigte das Setup 4 gleichzeitig zusammenarbeitende Agenten, wie in einer Video-Demonstration gezeigt, wobei die GPU in der Lage war, kontinuierlich 8 Agenten parallel zu unterstützen. Das einzige festgestellte Problem war ein Durchsatzrückgang, der je nach Agent variiert.

Agententeam-Aufgaben, die zuvor sequenziell Stunden dauerten, können nun je nach Projektumfang in etwa 30 Minuten erledigt werden. Der Entwickler schätzt, dass das Hinzufügen einer zweiten MaxQ GPU das System potenziell auf Dutzende gleichzeitiger Agenten skalieren könnte.

Dieser parallele Ansatz ermöglicht Vibecoding mehrerer Projekte lokal und gleichzeitig, obwohl er in bestimmten Szenarien etwas erhöhte Latenz verursachen kann. Der Entwickler fand diesen Kompromiss vorzuziehen gegenüber der Abarbeitung von Projekten mit jeweils nur einem Agenten.

📖 Read the full source: r/LocalLLaMA

Lokales Multi-Agenten-Setup mit vLLM, Claude Code und gpt-oss-120b unter Linux

Setup-Komponenten

Leistung und Workflow-Verbesserungen

👀 Siehe auch

Unternehmensentwickler-Claude-Workflow für Backend-Entwicklung

Benutzer setzt KI-Assistenten 'Elvis' auf VPS für Projektmanagement-Aufgaben ein

Erstellen Sie einen freihändigen KI-Chat mit OpenClaw + Mattermost — Echtzeit-Sprache nicht erforderlich

Designer baut Full-Stack-Plattform mit Claude CLI: Erkenntnisse ohne formale Programmierkenntnisse