Exécution d'un pipeline de coaching comportemental à 6 agents sur Qwen3 235B auto-hébergé avec vLLM

✍️ OpenClawRadar📅 Publié: April 1, 2026🔗 Source
Exécution d'un pipeline de coaching comportemental à 6 agents sur Qwen3 235B auto-hébergé avec vLLM
Ad

Système de coaching comportemental multi-agents

Un développeur a mis en œuvre un pipeline cognitif à 6 agents pour le coaching comportemental qui fonctionne entièrement sur des modèles Qwen3 auto-hébergés via vLLM. Le système utilise des instances Claude Code comme agents appelant un point de terminaison vLLM, avec quatre agents spécialisés déclenchés simultanément sur chaque message utilisateur.

Matériel et configuration

  • Développement : Qwen3 30B sur 2x RTX 4090
  • Production : Qwen3 235B sur des pods RunPod A40
  • Les 6 agents sont des instances Claude Code appelant le point de terminaison vLLM

Architecture du pipeline

Chaque message utilisateur déclenche 6 agents en séquence :

  • Shadow - S'exécute en premier, écrit les schémas comportementaux trans-sessionnels sur un tableau noir partagé (objectifs déclarés vs priorités révélées, prédiction de suivi, classification des schémas)
  • Persona - Notation OCEAN, détection d'objectifs récurrents, pourcentages de prédiction de suivi, identification des marges de progression
  • Plasticity - Stratégie de coaching informée par la personnalité, cartographie des scores OCEAN vers les préférences de communication
  • Stability - Cadre de risque avec évaluations de gravité/détectabilité/réversibilité, identifie les actions bloquées que le coach ne devrait pas suggérer
  • Coach - Se déclenche tôt pour une réponse immédiate pendant que les autres agents traitent (~secondes)
  • Synth (Pineal) - Fusionne toutes les sorties des travailleurs, applique une calibration vocale, délivre la réponse complète
Ad

Caractéristiques de performance

L'utilisateur voit une réponse immédiate du Coach, puis la synthèse complète s'ajoute environ 40 secondes plus tard sur 2x RTX 4090. Sur la configuration A40, cela prend environ 108 secondes - contre-intuitivement plus lent en raison d'une architecture mémoire différente.

Principales observations d'implémentation

Ce qui a fonctionné :

  • La distribution parallèle est la clé pour la performance
  • Shadow doit écrire en premier car la synthèse a besoin du contenu du tableau noir pour s'agréger correctement
  • La logique de séquencement pour garantir que Shadow se termine avant que Synth ne récupère ajoute une complexité significative mais est non négociable
  • La gestion du contexte à l'échelle 235B est coûteuse - chaque agent reçoit un briefing contextuel complet plus l'historique de la session
  • La compaction agressive entre les sessions et des budgets contextuels serrés par agent ont été les principaux leviers de fiabilité

Ce qui est difficile :

  • Faire en sorte que les agents écrivent une sortie structurée de manière suffisamment fiable pour que la synthèse puisse agréger sans halluciner des artefacts de fusion
  • Mode d'échec principal : Synth voyant des signaux contradictoires de Persona et Stability sur la même session

Le développeur recherche des retours d'autres personnes exécutant des systèmes multi-agents sur de l'inférence auto-hébergée, en particulier concernant les stratégies de parallélisme à l'échelle 235B.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Utilisation de Claude Code et Remotion pour Créer des Vidéos de Démonstration Sans Compétences en Design
Use Cases

Utilisation de Claude Code et Remotion pour Créer des Vidéos de Démonstration Sans Compétences en Design

Un développeur a retardé le lancement de son produit pendant des mois parce qu'il ne pouvait pas se permettre des vidéos de démonstration coûtant 300 à 1 000 dollars avec des délais de 6 à 10 semaines. En un week-end, il a utilisé Remotion (génération de vidéos basée sur React) et Claude Code pour créer ses propres vidéos, illustrations et composants de page de destination, obtenant des milliers de vues sur ses reels.

OpenClawRadar
Utilisateur Utilise avec Succès Claude IA pour Rédiger une Déclaration d'Atténuation Juridique
Use Cases

Utilisateur Utilise avec Succès Claude IA pour Rédiger une Déclaration d'Atténuation Juridique

Un utilisateur de Reddit rapporte avoir utilisé Claude AI pour aider à gagner une affaire d'infraction routière en téléchargeant les détails de l'infraction et en demandant à Claude de rédiger une déclaration d'atténuation, ce qui a impressionné le juge.

OpenClawRadar
Utiliser Claude Code pour résoudre les problèmes de configuration d'OpenClaw
Use Cases

Utiliser Claude Code pour résoudre les problèmes de configuration d'OpenClaw

Un développeur a utilisé Claude Code pour résoudre les problèmes de configuration persistants d'OpenClaw après avoir rencontré des difficultés avec la configuration manuelle et les problèmes de compatibilité des versions.

OpenClawRadar
Développeur Utilise le Code Claude pour Construire une Clé USB qui Lance Automatiquement le Jeu Chrome Dino
Use Cases

Développeur Utilise le Code Claude pour Construire une Clé USB qui Lance Automatiquement le Jeu Chrome Dino

Un développeur a créé une clé USB à l'aide d'une carte ATtiny85 qui joue automatiquement au jeu Dino de Chrome en détectant les obstacles avec des capteurs de lumière et en envoyant des commandes clavier. Claude Code a aidé au développement du firmware, y compris l'intégration V-USB, la logique des capteurs et les algorithmes de temporisation adaptative.

OpenClawRadar