Ausführen einer 6-Agenten-Verhaltenscoaching-Pipeline auf selbst gehostetem Qwen3 235B mit vLLM

✍️ OpenClawRadar📅 Veröffentlicht: 1. April 2026🔗 Source
Ausführen einer 6-Agenten-Verhaltenscoaching-Pipeline auf selbst gehostetem Qwen3 235B mit vLLM
Ad

Multi-Agenten-Verhaltenscoaching-System

Ein Entwickler hat eine 6-Agenten-Kognitionspipeline für Verhaltenscoaching implementiert, die vollständig auf selbst gehosteten Qwen3-Modellen über vLLM läuft. Das System verwendet Claude-Code-Instanzen als Agenten, die einen vLLM-Endpunkt aufrufen, wobei vier spezialisierte Agenten gleichzeitig auf jede Benutzernachricht reagieren.

Hardware und Einrichtung

  • Entwicklung: Qwen3 30B auf 2x RTX 4090
  • Produktion: Qwen3 235B auf RunPod A40-Pods
  • Alle 6 Agenten sind Claude-Code-Instanzen, die den vLLM-Endpunkt aufrufen

Pipeline-Architektur

Jede Benutzernachricht löst 6 Agenten in einer Sequenz aus:

  • Shadow - Läuft zuerst, schreibt verhaltensbezogene Muster über Sitzungen hinweg auf ein gemeinsames Schwarzes Brett (formulierte Ziele vs. tatsächliche Prioritäten, Durchhaltevorhersage, Musterklassifizierung)
  • Persona - OCEAN-Bewertung, Erkennung wiederkehrender Ziele, Durchhaltevorhersage in Prozent, Identifizierung von Entwicklungsmöglichkeiten
  • Plasticity - Persönlichkeitsbasierte Coaching-Strategie, ordnet OCEAN-Werte Kommunikationspräferenzen zu
  • Stability - Risikorahmen mit Bewertungen für Schweregrad/Erkennbarkeit/Umkehrbarkeit, identifiziert blockierte Schritte, die der Coach nicht vorschlagen sollte
  • Coach - Reagiert früh für eine sofortige Antwort, während die anderen Agenten verarbeiten (~Sekunden)
  • Synth (Pineal) - Führt alle Arbeitsausgaben zusammen, wendet Sprachkalibrierung an, liefert die vollständige Antwort
Ad

Leistungsmerkmale

Der Benutzer erhält eine sofortige Coach-Antwort, dann folgt die vollständige Synthese etwa 40 Sekunden später auf 2x RTX 4090. Auf der A40-Konfiguration dauert dies etwa 108 Sekunden – kontraintuitiv langsamer aufgrund einer anderen Speicherarchitektur.

Wichtige Implementierungserkenntnisse

Was funktioniert hat:

  • Parallele Verteilung ist der Schlüssel für die Leistung
  • Shadow muss zuerst schreiben, weil die Synthese den Inhalt des Schwarzen Brettes benötigt, um korrekt zu aggregieren
  • Die Sequenzlogik, um sicherzustellen, dass Shadow vor Synth abgeschlossen ist, fügt bedeutende Komplexität hinzu, ist aber unverzichtbar
  • Kontextverwaltung im 235B-Maßstab ist teuer – jeder Agent erhält ein vollständiges Kontextbriefing plus Sitzungshistorie
  • Aggressive Komprimierung zwischen Sitzungen und strenge Kontextbudgets pro Agent waren die Haupthebel für Zuverlässigkeit

Was schwierig ist:

  • Agenten dazu zu bringen, strukturierte Ausgaben zuverlässig genug zu schreiben, damit die Synthese sie ohne Halluzinationen von Zusammenführungsartefakten aggregieren kann
  • Hauptfehlermodus: Synth sieht widersprüchliche Signale von Persona und Stability in derselben Sitzung

Der Entwickler sucht Input von anderen, die Multi-Agenten-Systeme auf selbst gehosteter Inferenz betreiben, insbesondere bezüglich Parallelisierungsstrategien im 235B-Maßstab.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Entwickler baut KI-Baseball-Simulations-Engine mit Claude Code in zwei Wochen
Anwendungsfälle

Entwickler baut KI-Baseball-Simulations-Engine mit Claude Code in zwei Wochen

Ein Entwickler nutzte Claude Code, um ein komplettes Baseball-Simulationssystem mit 30 KI-gesteuerten MLB-Teams, Spielzusammenfassungen, Pressekonferenzen und Audio-Podcasts zu erstellen. Das Projekt kostete 50 US-Dollar an API-Guthaben und umfasst eine Simulations-Engine, eine Content-Pipeline, einen Discord-Bot und eine Website.

OpenClawRadar
Claude als Gedächtnisstütze für einen 80-jährigen Nutzer: Praktische Anwendungen und Grenzen
Anwendungsfälle

Claude als Gedächtnisstütze für einen 80-jährigen Nutzer: Praktische Anwendungen und Grenzen

Ein 80-jähriger Benutzer beschreibt, wie er Claude nutzt, um Memoiren zu schreiben, technische Probleme (Hosting, E-Mail, Mac Mini) zu lösen, Buchhaltungssoftware (nicht QuickBooks) zu finden und Astrologie-Interpretationen zu erstellen – mit ehrlichen Anmerkungen zur Berechnungsgenauigkeit und iterativen Korrektur.

OpenClawRadar
Verwendung von Claude zur Automatisierung von App Store Connect-Metadaten-Updates für 33 Sprachen
Anwendungsfälle

Verwendung von Claude zur Automatisierung von App Store Connect-Metadaten-Updates für 33 Sprachen

Ein unabhängiger iOS-Entwickler nutzte Claude (per Chat), um ein Python-Skript zu generieren, das sich bei der App Store Connect API authentifiziert, Metadaten in 33 Sprachen übersetzt und lokalisierte 'What's New'-Texte pusht – und so stundenlange manuelle Arbeit pro Update ersetzt.

OpenClawRadar
Entwicklerdokumente 11,7B Claude-Tokens Nutzung über 45 Tage, Details zu vier Projekten
Anwendungsfälle

Entwicklerdokumente 11,7B Claude-Tokens Nutzung über 45 Tage, Details zu vier Projekten

Ein Entwickler verfolgte 11,7 Milliarden Claude-Tokens über 45 Tage hinweg und beschrieb vier Projekte, darunter ein Live-Verkehrssystem, ein mathematisches Bewusstseinsmodell, eine benutzerdefinierte Transformer-Architektur und ein Analysewerkzeug für KI-Codierungsplattformen.

OpenClawRadar