Qwen3 235B 자체 호스팅: vLLM으로 6개 에이전트 파이프라인 구축

다중 에이전트 행동 코칭 시스템

한 개발자가 vLLM을 통해 완전히 자체 호스팅된 Qwen3 모델로 실행되는 행동 코칭을 위한 6-에이전트 인지 파이프라인을 구현했습니다. 이 시스템은 vLLM 엔드포인트를 호출하는 에이전트로 Claude Code 인스턴스를 사용하며, 각 사용자 메시지에 대해 4개의 전문 에이전트가 동시에 실행됩니다.

하드웨어 및 설정

개발: 2x RTX 4090에서 Qwen3 30B
프로덕션: RunPod A40 팟에서 Qwen3 235B
모든 6개 에이전트는 vLLM 엔드포인트를 호출하는 Claude Code 인스턴스입니다

파이프라인 아키텍처

각 사용자 메시지는 6개의 에이전트를 순차적으로 트리거합니다:

Shadow - 첫 번째로 실행되며, 세션 간 행동 패턴을 공유 블랙보드에 기록합니다(명시된 목표 vs 드러난 우선순위, 이행 예측, 패턴 분류)
Persona - OCEAN 점수화, 반복 목표 감지, 이행 예측 백분율, 성장 가능성 식별
Plasticity - 성격 기반 코칭 전략, OCEAN 점수를 커뮤니케이션 선호도에 매핑
Stability - 심각도/탐지 가능성/가역성 등급을 포함한 위험 프레임워크, 코치가 제안하지 말아야 할 차단된 행동을 식별
Coach - 다른 에이전트가 처리하는 동안(~초) 즉각적인 응답을 위해 조기에 실행
Synth (Pineal) - 모든 작업자 출력을 병합, 음성 보정 적용, 완전한 응답 전달

성능 특성

사용자는 즉각적인 Coach 응답을 본 후, 약 40초 후에 2x RTX 4090에서 완전한 합성 응답이 추가됩니다. A40 구성에서는 약 108초가 소요되는데, 이는 다른 메모리 아키텍처로 인해 직관과 달리 더 느립니다.

주요 구현 통찰

효과적인 점:

병렬 디스패치는 성능 향상의 핵심 열쇠입니다
Shadow가 먼저 기록해야 합성이 블랙보드 내용을 올바르게 집계할 수 있습니다
Synth가 시작하기 전에 Shadow가 완료되도록 보장하는 순서 논리는 의미 있는 복잡성을 추가하지만 필수적입니다
235B 규모에서의 컨텍스트 관리는 비용이 많이 듭니다 - 각 에이전트는 전체 컨텍스트 브리핑과 세션 기록을 받습니다
세션 간 공격적인 압축과 엄격한 에이전트별 컨텍스트 예산이 주요 신뢰성 수단이었습니다

어려운 점:

에이전트가 합성이 병합 아티팩트를 환각 없이 집계할 수 있을 만큼 구조화된 출력을 안정적으로 작성하도록 하는 것
주요 실패 모드: Synth가 동일 세션에서 Persona와 Stability의 상충되는 신호를 보는 경우

개발자는 특히 235B 규모에서 병렬 처리 전략에 대해 자체 호스팅 추론에서 다중 에이전트 시스템을 실행하는 다른 사람들의 의견을 구하고 있습니다.

📖 Read the full source: r/LocalLLaMA

자체 호스팅된 Qwen3 235B와 vLLM을 사용하여 6개 에이전트 행동 코칭 파이프라인 실행하기

다중 에이전트 행동 코칭 시스템

하드웨어 및 설정

파이프라인 아키텍처

성능 특성

주요 구현 통찰

👀 See Also

OpenClaw 에이전트로 구축된 자율 AI 뉴스레터

로컬 멀티 에이전트 연구 보조가 작업당 15-25분을 절약합니다

한 팀이 6자리 수 허브스팟 에이전시를 클로드 코드로 대체한 방법

실제 응용 사례를 탐색하세요, r/OpenClawUseCases와 함께!