6つのエージェントを持つ行動コーチングパイプラインを自己ホスト型Qwen3 235Bで実行

マルチエージェント行動コーチングシステム

ある開発者が、vLLMを介して完全にセルフホストされたQwen3モデル上で動作する、行動コーチングのための6エージェント認知パイプラインを実装しました。このシステムは、Claude CodeインスタンスをvLLMエンドポイントを呼び出すエージェントとして使用し、各ユーザーメッセージに対して4つの専門エージェントが同時に起動します。

ハードウェアとセットアップ

開発環境：2x RTX 4090上のQwen3 30B
本番環境：RunPod A40ポッド上のQwen3 235B
全6エージェントはvLLMエンドポイントを呼び出すClaude Codeインスタンス

パイプラインアーキテクチャ

各ユーザーメッセージは6つのエージェントを順次起動します：

シャドウ - 最初に実行され、セッション間の行動パターンを共有ブラックボードに書き込む（表明された目標と実際の優先順位、実行予測、パターン分類）
ペルソナ - OCEANスコアリング、繰り返し目標の検出、実行予測パーセンテージ、成長の可能性の特定
プラスティシティ - 性格に基づいたコーチング戦略、OCEANスコアからコミュニケーション嗜好へのマッピング
スタビリティ - 深刻度/検出可能性/回復可能性の評価を含むリスクフレームワーク、コーチが提案すべきでないブロックされた行動を特定
コーチ - 即時応答のために早期に起動（他のエージェントの処理中、約数秒）
シンセ（松果体） - 全ワーカー出力を統合、声の調整を適用、完全な応答を提供

性能特性

ユーザーはまず即座にコーチの応答を受け取り、その後約40秒後に完全な統合応答が追加されます（2x RTX 4090環境）。A40構成では約108秒かかり、異なるメモリアーキテクチャのため直感的には遅くなっています。

主要な実装洞察

成功した点：

並列ディスパッチが性能向上の鍵
統合がブラックボードの内容を正しく集約するために、シャドウが最初に書き込む必要がある
シンセが処理を開始する前にシャドウが完了することを保証するシーケンスロジックは複雑だが必須
235Bスケールでのコンテキスト管理は高コスト - 各エージェントは完全なコンテキスト概要とセッション履歴を受け取る
セッション間での積極的な圧縮とエージェントごとの厳密なコンテキスト予算が主要な信頼性向上手段

困難な点：

統合がマージアーティファクトを幻覚することなく集約できるほど、エージェントに構造化出力を確実に書かせること
主要な失敗モード：シンセが同じセッションでペルソナとスタビリティからの矛盾する信号を検出すること

開発者は、特に235Bスケールでの並列処理戦略に関して、セルフホスト推論でマルチエージェントシステムを実行している他のユーザーからの意見を求めています。

📖 Read the full source: r/LocalLLaMA

自己ホスト型Qwen3 235BとvLLMを使用した6エージェント行動コーチングパイプラインの実行

マルチエージェント行動コーチングシステム

ハードウェアとセットアップ

パイプラインアーキテクチャ

性能特性

主要な実装洞察

👀 See Also

AI Claudeをコーディングメンターとして：ゼロからフルスタックSaaSを1ヶ月でリリースするまで

QuakeをThree.jsに移植するClaude Code：ワークフローと制限事項

ローカルでのLlama 3.2-1Bのシークレット検出用ファインチューニングがWizのモデルを上回る

開発者は、フロントエンド開発とランディングページデザインにClaude AIを使用しています。