로컬 멀티 에이전트 설정: vLLM, Claude Code, gpt-oss-120b 활용법

한 개발자가 Windows에서 Linux로 전환한 후 완전히 로컬에서 병렬 멀티 에이전트 코딩 설정을 구축한 경험을 공유했습니다. 이 구성은 병렬 추론을 위해 vLLM을, 에이전트 오케스트레이션을 위해 Claude Code를, 코딩 작업을 위해 대규모 언어 모델을 사용합니다.

설정 구성 요소

vLLM Docker 컨테이너: 쉬운 배포와 병렬 추론을 위해 사용됨
Claude Code: 바이브 코딩과 에이전트 팀 오케스트레이션을 처리하며, 클라우드 제공업체 대신 vLLM 로컬호스트 엔드포인트를 가리키도록 구성됨
gpt-oss:120b: 코딩 에이전트 역할을 수행
RTX Pro 6000 Blackwell MaxQ: 작업 부하를 위한 주요 GPU
듀얼 부팅 Ubuntu: 운영 체제 설정

성능 및 워크플로우 개선

이 개발자는 이전에 Ollama와 LM Studio를 사용했지만, 요청을 순차적으로 처리하고 여러 메시지 턴과 도구 호출 후 속도 저하를 경험했습니다. vLLM을 사용하여 경험을 "터보차지"한 병렬 처리를 달성했습니다.

테스트에서 이 설정은 비디오 데모에서 보여준 대로 4개의 에이전트가 동시에 협업하는 것을 처리했으며, GPU는 지속적으로 8개의 에이전트를 병렬로 지원할 수 있었습니다. 유일하게 지적된 문제는 처리량 감소였으며, 이는 에이전트에 따라 다릅니다.

이전에 순차적으로 완료하는 데 몇 시간이 걸렸던 에이전트 팀 규모 작업은 이제 프로젝트 범위에 따라 약 30분 안에 완료할 수 있습니다. 이 개발자는 두 번째 MaxQ GPU를 추가하면 시스템이 수십 개의 에이전트를 동시에 처리하도록 확장될 수 있을 것으로 추정합니다.

이 병렬 접근 방식은 로컬에서 여러 프로젝트를 동시에 바이브 코딩할 수 있게 해주지만, 특정 시나리오에서는 약간의 지연 시간 증가를 초래할 수 있습니다. 이 개발자는 이 트레이드오프가 한 번에 하나의 에이전트로 프로젝트를 완료하는 것보다 선호된다고 판단했습니다.

📖 Read the full source: r/LocalLLaMA

리눅스에서 vLLM, Claude Code 및 gpt-oss-120b를 사용한 로컬 멀티 에이전트 설정

설정 구성 요소

성능 및 워크플로우 개선

👀 See Also

OpenClaw 비디오 제작 과정: 자동화를 80%로 줄이고 품질을 향상시키다

다중 AI 에이전트 조율: 디스코드, 크론 잡, 명확한 위계 구조

클로드가 불량 맥북에 대해 소송 전 통지서를 작성하고 전액 환불을 받은 방법

자율 매거진 파이프라인 with Claude Code: 에이전트 아키텍처 분석