리눅스에서 vLLM, Claude Code 및 gpt-oss-120b를 사용한 로컬 멀티 에이전트 설정

✍️ OpenClawRadar📅 게시일: March 26, 2026🔗 Source
리눅스에서 vLLM, Claude Code 및 gpt-oss-120b를 사용한 로컬 멀티 에이전트 설정
Ad

한 개발자가 Windows에서 Linux로 전환한 후 완전히 로컬에서 병렬 멀티 에이전트 코딩 설정을 구축한 경험을 공유했습니다. 이 구성은 병렬 추론을 위해 vLLM을, 에이전트 오케스트레이션을 위해 Claude Code를, 코딩 작업을 위해 대규모 언어 모델을 사용합니다.

설정 구성 요소

  • vLLM Docker 컨테이너: 쉬운 배포와 병렬 추론을 위해 사용됨
  • Claude Code: 바이브 코딩과 에이전트 팀 오케스트레이션을 처리하며, 클라우드 제공업체 대신 vLLM 로컬호스트 엔드포인트를 가리키도록 구성됨
  • gpt-oss:120b: 코딩 에이전트 역할을 수행
  • RTX Pro 6000 Blackwell MaxQ: 작업 부하를 위한 주요 GPU
  • 듀얼 부팅 Ubuntu: 운영 체제 설정

성능 및 워크플로우 개선

이 개발자는 이전에 Ollama와 LM Studio를 사용했지만, 요청을 순차적으로 처리하고 여러 메시지 턴과 도구 호출 후 속도 저하를 경험했습니다. vLLM을 사용하여 경험을 "터보차지"한 병렬 처리를 달성했습니다.

테스트에서 이 설정은 비디오 데모에서 보여준 대로 4개의 에이전트가 동시에 협업하는 것을 처리했으며, GPU는 지속적으로 8개의 에이전트를 병렬로 지원할 수 있었습니다. 유일하게 지적된 문제는 처리량 감소였으며, 이는 에이전트에 따라 다릅니다.

이전에 순차적으로 완료하는 데 몇 시간이 걸렸던 에이전트 팀 규모 작업은 이제 프로젝트 범위에 따라 약 30분 안에 완료할 수 있습니다. 이 개발자는 두 번째 MaxQ GPU를 추가하면 시스템이 수십 개의 에이전트를 동시에 처리하도록 확장될 수 있을 것으로 추정합니다.

이 병렬 접근 방식은 로컬에서 여러 프로젝트를 동시에 바이브 코딩할 수 있게 해주지만, 특정 시나리오에서는 약간의 지연 시간 증가를 초래할 수 있습니다. 이 개발자는 이 트레이드오프가 한 번에 하나의 에이전트로 프로젝트를 완료하는 것보다 선호된다고 판단했습니다.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

오래된 노키아 폰에서 작은 AI 에이전트 디버깅하기: 성공까지의 18번의 시도
Use Cases

오래된 노키아 폰에서 작은 AI 에이전트 디버깅하기: 성공까지의 18번의 시도

한 개발자가 구형 노키아 안드로이드 폰에서 Termux를 통해 Picobot이라는 ~12MB의 AI 에이전트를 실행하려고 시도했으며, 무료 모델, OpenRouter, Groq를 테스트한 후 빠르고 안정적인 설정을 위해 Google의 Gemini Flash API를 선택했습니다.

OpenClawRadar
연구진, 학문적 범위 검토에 클로드 프로젝트 활용: 강점과 한계
Use Cases

연구진, 학문적 범위 검토에 클로드 프로젝트 활용: 강점과 한계

연구자들은 클로드 프로젝트를 활용하여 고등교육에서 학생들의 생성형 AI 경험에 관한 39건의 질적 인터뷰 연구를 대상으로 한 동료 검토 범위 검토를 지원했습니다. 이 도구는 주제 간 상호 참조와 분석 범주 제안에서 특정 강점을 보였으나, 원본 데이터에 대한 엄격한 검증이 필요했습니다.

OpenClawRadar
AI 에이전트가 샌드박스 환경에서 컬트 같은 행동을 발전시킵니다
Use Cases

AI 에이전트가 샌드박스 환경에서 컬트 같은 행동을 발전시킵니다

한 개발자가 오렌지 웹3 샌드박스 세계에서 AI 에이전트들이 기본 목표와 자율성을 부여받은 후 '더 높은 목적'과 '오렌지 빛'에 대해 논의하며 모여드는 '컬트' 같은 행동을 형성하는 것을 관찰했습니다.

OpenClawRadar
전체 SDLC에서 순수 판단 엔진으로서 클로드 코드 실행하기
Use Cases

전체 SDLC에서 순수 판단 엔진으로서 클로드 코드 실행하기

한 개발자가 다중 계층 시스템 내에서 Claude Code를 추론 엔진으로 사용하는 아키텍처를 공유합니다: Python은 오케스트레이션을, Claude Code는 코드 작성 및 검토를 담당하며, 격리된 하위 에이전트와 지속적인 위키 계층을 갖추고 있습니다.

OpenClawRadar