자체 호스팅된 Qwen3 235B와 vLLM을 사용하여 6개 에이전트 행동 코칭 파이프라인 실행하기

다중 에이전트 행동 코칭 시스템
한 개발자가 vLLM을 통해 완전히 자체 호스팅된 Qwen3 모델로 실행되는 행동 코칭을 위한 6-에이전트 인지 파이프라인을 구현했습니다. 이 시스템은 vLLM 엔드포인트를 호출하는 에이전트로 Claude Code 인스턴스를 사용하며, 각 사용자 메시지에 대해 4개의 전문 에이전트가 동시에 실행됩니다.
하드웨어 및 설정
- 개발: 2x RTX 4090에서 Qwen3 30B
- 프로덕션: RunPod A40 팟에서 Qwen3 235B
- 모든 6개 에이전트는 vLLM 엔드포인트를 호출하는 Claude Code 인스턴스입니다
파이프라인 아키텍처
각 사용자 메시지는 6개의 에이전트를 순차적으로 트리거합니다:
- Shadow - 첫 번째로 실행되며, 세션 간 행동 패턴을 공유 블랙보드에 기록합니다(명시된 목표 vs 드러난 우선순위, 이행 예측, 패턴 분류)
- Persona - OCEAN 점수화, 반복 목표 감지, 이행 예측 백분율, 성장 가능성 식별
- Plasticity - 성격 기반 코칭 전략, OCEAN 점수를 커뮤니케이션 선호도에 매핑
- Stability - 심각도/탐지 가능성/가역성 등급을 포함한 위험 프레임워크, 코치가 제안하지 말아야 할 차단된 행동을 식별
- Coach - 다른 에이전트가 처리하는 동안(~초) 즉각적인 응답을 위해 조기에 실행
- Synth (Pineal) - 모든 작업자 출력을 병합, 음성 보정 적용, 완전한 응답 전달
성능 특성
사용자는 즉각적인 Coach 응답을 본 후, 약 40초 후에 2x RTX 4090에서 완전한 합성 응답이 추가됩니다. A40 구성에서는 약 108초가 소요되는데, 이는 다른 메모리 아키텍처로 인해 직관과 달리 더 느립니다.
주요 구현 통찰
효과적인 점:
- 병렬 디스패치는 성능 향상의 핵심 열쇠입니다
- Shadow가 먼저 기록해야 합성이 블랙보드 내용을 올바르게 집계할 수 있습니다
- Synth가 시작하기 전에 Shadow가 완료되도록 보장하는 순서 논리는 의미 있는 복잡성을 추가하지만 필수적입니다
- 235B 규모에서의 컨텍스트 관리는 비용이 많이 듭니다 - 각 에이전트는 전체 컨텍스트 브리핑과 세션 기록을 받습니다
- 세션 간 공격적인 압축과 엄격한 에이전트별 컨텍스트 예산이 주요 신뢰성 수단이었습니다
어려운 점:
- 에이전트가 합성이 병합 아티팩트를 환각 없이 집계할 수 있을 만큼 구조화된 출력을 안정적으로 작성하도록 하는 것
- 주요 실패 모드: Synth가 동일 세션에서 Persona와 Stability의 상충되는 신호를 보는 경우
개발자는 특히 235B 규모에서 병렬 처리 전략에 대해 자체 호스팅 추론에서 다중 에이전트 시스템을 실행하는 다른 사람들의 의견을 구하고 있습니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

사용자 워크플로우: Claude.ai로 계획 수립하고 Claude Code로 구현하기
한 개발자가 Claude.ai를 사용해 상세한 계획 및 아키텍처 논의를 하고, Claude Code를 구현에 사용하지만, 두 도구 간에 공유 상태가 없어 수동 파일 전송이 필요하다고 언급합니다.

자동화된 AI 개발 파이프라인, 11개의 품질 게이트 및 신뢰도 프로필 포함
한 개발자가 11개의 자동화된 품질 게이트를 갖춘 AI 기반 파이프라인을 구축하여 수동 승인 없이 종단 간 실행되도록 했습니다. 신뢰도 프로필, 자동 복구 및 캐싱을 활용하여 설계, 계획, 빌드, 테스트 및 보안 검사를 자율적으로 처리하며, 토큰 사용량을 60-84% 감소시켰습니다.

리드 생성 및 CRM 자동화 with OpenClaw
없음

비개발자가 Claude로 1년간 iOS 앱 개발한 실전 인사이트
소프트웨어 경험이 전혀 없는 비개발자가 1년 동안 Claude를 사용하여 BloomDay라는 완전한 iOS 생산성 앱을 구축했습니다. 이 앱에는 React Native와 Expo로 구축된 작업 추적, 습관 추적, 앰비언트 사운드가 있는 집중 모드, 가상 정원이 포함되어 있습니다.