Ausführen einer 6-Agenten-Verhaltenscoaching-Pipeline auf selbst gehostetem Qwen3 235B mit vLLM

Multi-Agenten-Verhaltenscoaching-System
Ein Entwickler hat eine 6-Agenten-Kognitionspipeline für Verhaltenscoaching implementiert, die vollständig auf selbst gehosteten Qwen3-Modellen über vLLM läuft. Das System verwendet Claude-Code-Instanzen als Agenten, die einen vLLM-Endpunkt aufrufen, wobei vier spezialisierte Agenten gleichzeitig auf jede Benutzernachricht reagieren.
Hardware und Einrichtung
- Entwicklung: Qwen3 30B auf 2x RTX 4090
- Produktion: Qwen3 235B auf RunPod A40-Pods
- Alle 6 Agenten sind Claude-Code-Instanzen, die den vLLM-Endpunkt aufrufen
Pipeline-Architektur
Jede Benutzernachricht löst 6 Agenten in einer Sequenz aus:
- Shadow - Läuft zuerst, schreibt verhaltensbezogene Muster über Sitzungen hinweg auf ein gemeinsames Schwarzes Brett (formulierte Ziele vs. tatsächliche Prioritäten, Durchhaltevorhersage, Musterklassifizierung)
- Persona - OCEAN-Bewertung, Erkennung wiederkehrender Ziele, Durchhaltevorhersage in Prozent, Identifizierung von Entwicklungsmöglichkeiten
- Plasticity - Persönlichkeitsbasierte Coaching-Strategie, ordnet OCEAN-Werte Kommunikationspräferenzen zu
- Stability - Risikorahmen mit Bewertungen für Schweregrad/Erkennbarkeit/Umkehrbarkeit, identifiziert blockierte Schritte, die der Coach nicht vorschlagen sollte
- Coach - Reagiert früh für eine sofortige Antwort, während die anderen Agenten verarbeiten (~Sekunden)
- Synth (Pineal) - Führt alle Arbeitsausgaben zusammen, wendet Sprachkalibrierung an, liefert die vollständige Antwort
Leistungsmerkmale
Der Benutzer erhält eine sofortige Coach-Antwort, dann folgt die vollständige Synthese etwa 40 Sekunden später auf 2x RTX 4090. Auf der A40-Konfiguration dauert dies etwa 108 Sekunden – kontraintuitiv langsamer aufgrund einer anderen Speicherarchitektur.
Wichtige Implementierungserkenntnisse
Was funktioniert hat:
- Parallele Verteilung ist der Schlüssel für die Leistung
- Shadow muss zuerst schreiben, weil die Synthese den Inhalt des Schwarzen Brettes benötigt, um korrekt zu aggregieren
- Die Sequenzlogik, um sicherzustellen, dass Shadow vor Synth abgeschlossen ist, fügt bedeutende Komplexität hinzu, ist aber unverzichtbar
- Kontextverwaltung im 235B-Maßstab ist teuer – jeder Agent erhält ein vollständiges Kontextbriefing plus Sitzungshistorie
- Aggressive Komprimierung zwischen Sitzungen und strenge Kontextbudgets pro Agent waren die Haupthebel für Zuverlässigkeit
Was schwierig ist:
- Agenten dazu zu bringen, strukturierte Ausgaben zuverlässig genug zu schreiben, damit die Synthese sie ohne Halluzinationen von Zusammenführungsartefakten aggregieren kann
- Hauptfehlermodus: Synth sieht widersprüchliche Signale von Persona und Stability in derselben Sitzung
Der Entwickler sucht Input von anderen, die Multi-Agenten-Systeme auf selbst gehosteter Inferenz betreiben, insbesondere bezüglich Parallelisierungsstrategien im 235B-Maßstab.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Entwickler baut KI-Baseball-Simulations-Engine mit Claude Code in zwei Wochen
Ein Entwickler nutzte Claude Code, um ein komplettes Baseball-Simulationssystem mit 30 KI-gesteuerten MLB-Teams, Spielzusammenfassungen, Pressekonferenzen und Audio-Podcasts zu erstellen. Das Projekt kostete 50 US-Dollar an API-Guthaben und umfasst eine Simulations-Engine, eine Content-Pipeline, einen Discord-Bot und eine Website.

Claude als Gedächtnisstütze für einen 80-jährigen Nutzer: Praktische Anwendungen und Grenzen
Ein 80-jähriger Benutzer beschreibt, wie er Claude nutzt, um Memoiren zu schreiben, technische Probleme (Hosting, E-Mail, Mac Mini) zu lösen, Buchhaltungssoftware (nicht QuickBooks) zu finden und Astrologie-Interpretationen zu erstellen – mit ehrlichen Anmerkungen zur Berechnungsgenauigkeit und iterativen Korrektur.

Verwendung von Claude zur Automatisierung von App Store Connect-Metadaten-Updates für 33 Sprachen
Ein unabhängiger iOS-Entwickler nutzte Claude (per Chat), um ein Python-Skript zu generieren, das sich bei der App Store Connect API authentifiziert, Metadaten in 33 Sprachen übersetzt und lokalisierte 'What's New'-Texte pusht – und so stundenlange manuelle Arbeit pro Update ersetzt.

Entwicklerdokumente 11,7B Claude-Tokens Nutzung über 45 Tage, Details zu vier Projekten
Ein Entwickler verfolgte 11,7 Milliarden Claude-Tokens über 45 Tage hinweg und beschrieb vier Projekte, darunter ein Live-Verkehrssystem, ein mathematisches Bewusstseinsmodell, eine benutzerdefinierte Transformer-Architektur und ein Analysewerkzeug für KI-Codierungsplattformen.