Pipeline 6 agents sur Qwen3 235B avec vLLM

Système de coaching comportemental multi-agents

Un développeur a mis en œuvre un pipeline cognitif à 6 agents pour le coaching comportemental qui fonctionne entièrement sur des modèles Qwen3 auto-hébergés via vLLM. Le système utilise des instances Claude Code comme agents appelant un point de terminaison vLLM, avec quatre agents spécialisés déclenchés simultanément sur chaque message utilisateur.

Matériel et configuration

Développement : Qwen3 30B sur 2x RTX 4090
Production : Qwen3 235B sur des pods RunPod A40
Les 6 agents sont des instances Claude Code appelant le point de terminaison vLLM

Architecture du pipeline

Chaque message utilisateur déclenche 6 agents en séquence :

Shadow - S'exécute en premier, écrit les schémas comportementaux trans-sessionnels sur un tableau noir partagé (objectifs déclarés vs priorités révélées, prédiction de suivi, classification des schémas)
Persona - Notation OCEAN, détection d'objectifs récurrents, pourcentages de prédiction de suivi, identification des marges de progression
Plasticity - Stratégie de coaching informée par la personnalité, cartographie des scores OCEAN vers les préférences de communication
Stability - Cadre de risque avec évaluations de gravité/détectabilité/réversibilité, identifie les actions bloquées que le coach ne devrait pas suggérer
Coach - Se déclenche tôt pour une réponse immédiate pendant que les autres agents traitent (~secondes)
Synth (Pineal) - Fusionne toutes les sorties des travailleurs, applique une calibration vocale, délivre la réponse complète

Caractéristiques de performance

L'utilisateur voit une réponse immédiate du Coach, puis la synthèse complète s'ajoute environ 40 secondes plus tard sur 2x RTX 4090. Sur la configuration A40, cela prend environ 108 secondes - contre-intuitivement plus lent en raison d'une architecture mémoire différente.

Principales observations d'implémentation

Ce qui a fonctionné :

La distribution parallèle est la clé pour la performance
Shadow doit écrire en premier car la synthèse a besoin du contenu du tableau noir pour s'agréger correctement
La logique de séquencement pour garantir que Shadow se termine avant que Synth ne récupère ajoute une complexité significative mais est non négociable
La gestion du contexte à l'échelle 235B est coûteuse - chaque agent reçoit un briefing contextuel complet plus l'historique de la session
La compaction agressive entre les sessions et des budgets contextuels serrés par agent ont été les principaux leviers de fiabilité

Ce qui est difficile :

Faire en sorte que les agents écrivent une sortie structurée de manière suffisamment fiable pour que la synthèse puisse agréger sans halluciner des artefacts de fusion
Mode d'échec principal : Synth voyant des signaux contradictoires de Persona et Stability sur la même session

Le développeur recherche des retours d'autres personnes exécutant des systèmes multi-agents sur de l'inférence auto-hébergée, en particulier concernant les stratégies de parallélisme à l'échelle 235B.

📖 Read the full source: r/LocalLLaMA

Exécution d'un pipeline de coaching comportemental à 6 agents sur Qwen3 235B auto-hébergé avec vLLM

Système de coaching comportemental multi-agents

Matériel et configuration

Architecture du pipeline

Caractéristiques de performance

Principales observations d'implémentation

👀 See Also

Configuration OpenClaw bon marché : VPS Hetzner à 5 $/mois + API DeepSeek pour moins de 1 $

Utilisateur signale une facture OpenClaw de 868 dollars australiens, des sessions en double et des pannes après les mises à jour

Parallélisation massive du code Claude : Leçons tirées de la construction d'une application de 220 000 lignes

Le développeur utilise des agents de code Claude pour résoudre 635 problèmes sur 42 jeux de société en une seule session.