自己ホスト型Qwen3 235BとvLLMを使用した6エージェント行動コーチングパイプラインの実行

マルチエージェント行動コーチングシステム
ある開発者が、vLLMを介して完全にセルフホストされたQwen3モデル上で動作する、行動コーチングのための6エージェント認知パイプラインを実装しました。このシステムは、Claude CodeインスタンスをvLLMエンドポイントを呼び出すエージェントとして使用し、各ユーザーメッセージに対して4つの専門エージェントが同時に起動します。
ハードウェアとセットアップ
- 開発環境:2x RTX 4090上のQwen3 30B
- 本番環境:RunPod A40ポッド上のQwen3 235B
- 全6エージェントはvLLMエンドポイントを呼び出すClaude Codeインスタンス
パイプラインアーキテクチャ
各ユーザーメッセージは6つのエージェントを順次起動します:
- シャドウ - 最初に実行され、セッション間の行動パターンを共有ブラックボードに書き込む(表明された目標と実際の優先順位、実行予測、パターン分類)
- ペルソナ - OCEANスコアリング、繰り返し目標の検出、実行予測パーセンテージ、成長の可能性の特定
- プラスティシティ - 性格に基づいたコーチング戦略、OCEANスコアからコミュニケーション嗜好へのマッピング
- スタビリティ - 深刻度/検出可能性/回復可能性の評価を含むリスクフレームワーク、コーチが提案すべきでないブロックされた行動を特定
- コーチ - 即時応答のために早期に起動(他のエージェントの処理中、約数秒)
- シンセ(松果体) - 全ワーカー出力を統合、声の調整を適用、完全な応答を提供
性能特性
ユーザーはまず即座にコーチの応答を受け取り、その後約40秒後に完全な統合応答が追加されます(2x RTX 4090環境)。A40構成では約108秒かかり、異なるメモリアーキテクチャのため直感的には遅くなっています。
主要な実装洞察
成功した点:
- 並列ディスパッチが性能向上の鍵
- 統合がブラックボードの内容を正しく集約するために、シャドウが最初に書き込む必要がある
- シンセが処理を開始する前にシャドウが完了することを保証するシーケンスロジックは複雑だが必須
- 235Bスケールでのコンテキスト管理は高コスト - 各エージェントは完全なコンテキスト概要とセッション履歴を受け取る
- セッション間での積極的な圧縮とエージェントごとの厳密なコンテキスト予算が主要な信頼性向上手段
困難な点:
- 統合がマージアーティファクトを幻覚することなく集約できるほど、エージェントに構造化出力を確実に書かせること
- 主要な失敗モード:シンセが同じセッションでペルソナとスタビリティからの矛盾する信号を検出すること
開発者は、特に235Bスケールでの並列処理戦略に関して、セルフホスト推論でマルチエージェントシステムを実行している他のユーザーからの意見を求めています。
📖 Read the full source: r/LocalLLaMA
👀 See Also

オープンクローエージェントのための垂直データレイヤーの構築
OpenClawの真の可能性は、単にそれを使うことだけではありません。それは、乱雑なデータソースを接続し、それらを利用可能なスキーマに正規化し、構造化されたJSONを返すクリーンなツールエンドポイントとして公開する、業界固有のデータレイヤーを構築することにあります。

OpenClawで月20ドルの販売アシスタントを構築
ある開発者が、OpenClawを使用して、リードを監視するメール、見込み客の調査、パーソナライズされたアウトリーチメールの作成、会議の概要の準備を行うセールスシステムを構築しました。このシステムはMac Miniで動作し、APIコストは月額20〜35ドルです。

ヘッドレスVPS上のOpenClawに軽量ブラウザレイヤーを追加
開発者が、純粋なヘッドレスブラウジング以上の機能を必要とするサイトに対処する方法を共有します。必要な時だけ最小限の視覚的ブラウザ環境を追加し、デフォルトではVPSをヘッドレスのまま維持し、永続的なブラウザプロファイルを再利用します。

開発者向け文書 11.7B Claudeトークン使用状況(45日間)、4プロジェクトの詳細
開発者が45日間にわたり117億のClaudeトークンを使用した記録を追跡し、ライブ交通システム、数学的意識モデル、カスタムトランスフォーマーアーキテクチャ、AIコーディングプラットフォーム分析ツールを含む4つのプロジェクトの詳細を明らかにしました。