Qwen3 235B 6-Agenten-Pipeline: Verhaltenscoaching selbst hosten

Multi-Agenten-Verhaltenscoaching-System

Ein Entwickler hat eine 6-Agenten-Kognitionspipeline für Verhaltenscoaching implementiert, die vollständig auf selbst gehosteten Qwen3-Modellen über vLLM läuft. Das System verwendet Claude-Code-Instanzen als Agenten, die einen vLLM-Endpunkt aufrufen, wobei vier spezialisierte Agenten gleichzeitig auf jede Benutzernachricht reagieren.

Hardware und Einrichtung

Entwicklung: Qwen3 30B auf 2x RTX 4090
Produktion: Qwen3 235B auf RunPod A40-Pods
Alle 6 Agenten sind Claude-Code-Instanzen, die den vLLM-Endpunkt aufrufen

Pipeline-Architektur

Jede Benutzernachricht löst 6 Agenten in einer Sequenz aus:

Shadow - Läuft zuerst, schreibt verhaltensbezogene Muster über Sitzungen hinweg auf ein gemeinsames Schwarzes Brett (formulierte Ziele vs. tatsächliche Prioritäten, Durchhaltevorhersage, Musterklassifizierung)
Persona - OCEAN-Bewertung, Erkennung wiederkehrender Ziele, Durchhaltevorhersage in Prozent, Identifizierung von Entwicklungsmöglichkeiten
Plasticity - Persönlichkeitsbasierte Coaching-Strategie, ordnet OCEAN-Werte Kommunikationspräferenzen zu
Stability - Risikorahmen mit Bewertungen für Schweregrad/Erkennbarkeit/Umkehrbarkeit, identifiziert blockierte Schritte, die der Coach nicht vorschlagen sollte
Coach - Reagiert früh für eine sofortige Antwort, während die anderen Agenten verarbeiten (~Sekunden)
Synth (Pineal) - Führt alle Arbeitsausgaben zusammen, wendet Sprachkalibrierung an, liefert die vollständige Antwort

Leistungsmerkmale

Der Benutzer erhält eine sofortige Coach-Antwort, dann folgt die vollständige Synthese etwa 40 Sekunden später auf 2x RTX 4090. Auf der A40-Konfiguration dauert dies etwa 108 Sekunden – kontraintuitiv langsamer aufgrund einer anderen Speicherarchitektur.

Wichtige Implementierungserkenntnisse

Was funktioniert hat:

Parallele Verteilung ist der Schlüssel für die Leistung
Shadow muss zuerst schreiben, weil die Synthese den Inhalt des Schwarzen Brettes benötigt, um korrekt zu aggregieren
Die Sequenzlogik, um sicherzustellen, dass Shadow vor Synth abgeschlossen ist, fügt bedeutende Komplexität hinzu, ist aber unverzichtbar
Kontextverwaltung im 235B-Maßstab ist teuer – jeder Agent erhält ein vollständiges Kontextbriefing plus Sitzungshistorie
Aggressive Komprimierung zwischen Sitzungen und strenge Kontextbudgets pro Agent waren die Haupthebel für Zuverlässigkeit

Was schwierig ist:

Agenten dazu zu bringen, strukturierte Ausgaben zuverlässig genug zu schreiben, damit die Synthese sie ohne Halluzinationen von Zusammenführungsartefakten aggregieren kann
Hauptfehlermodus: Synth sieht widersprüchliche Signale von Persona und Stability in derselben Sitzung

Der Entwickler sucht Input von anderen, die Multi-Agenten-Systeme auf selbst gehosteter Inferenz betreiben, insbesondere bezüglich Parallelisierungsstrategien im 235B-Maßstab.

📖 Read the full source: r/LocalLLaMA