리눅스에서 vLLM, Claude Code 및 gpt-oss-120b를 사용한 로컬 멀티 에이전트 설정

한 개발자가 Windows에서 Linux로 전환한 후 완전히 로컬에서 병렬 멀티 에이전트 코딩 설정을 구축한 경험을 공유했습니다. 이 구성은 병렬 추론을 위해 vLLM을, 에이전트 오케스트레이션을 위해 Claude Code를, 코딩 작업을 위해 대규모 언어 모델을 사용합니다.
설정 구성 요소
- vLLM Docker 컨테이너: 쉬운 배포와 병렬 추론을 위해 사용됨
- Claude Code: 바이브 코딩과 에이전트 팀 오케스트레이션을 처리하며, 클라우드 제공업체 대신 vLLM 로컬호스트 엔드포인트를 가리키도록 구성됨
- gpt-oss:120b: 코딩 에이전트 역할을 수행
- RTX Pro 6000 Blackwell MaxQ: 작업 부하를 위한 주요 GPU
- 듀얼 부팅 Ubuntu: 운영 체제 설정
성능 및 워크플로우 개선
이 개발자는 이전에 Ollama와 LM Studio를 사용했지만, 요청을 순차적으로 처리하고 여러 메시지 턴과 도구 호출 후 속도 저하를 경험했습니다. vLLM을 사용하여 경험을 "터보차지"한 병렬 처리를 달성했습니다.
테스트에서 이 설정은 비디오 데모에서 보여준 대로 4개의 에이전트가 동시에 협업하는 것을 처리했으며, GPU는 지속적으로 8개의 에이전트를 병렬로 지원할 수 있었습니다. 유일하게 지적된 문제는 처리량 감소였으며, 이는 에이전트에 따라 다릅니다.
이전에 순차적으로 완료하는 데 몇 시간이 걸렸던 에이전트 팀 규모 작업은 이제 프로젝트 범위에 따라 약 30분 안에 완료할 수 있습니다. 이 개발자는 두 번째 MaxQ GPU를 추가하면 시스템이 수십 개의 에이전트를 동시에 처리하도록 확장될 수 있을 것으로 추정합니다.
이 병렬 접근 방식은 로컬에서 여러 프로젝트를 동시에 바이브 코딩할 수 있게 해주지만, 특정 시나리오에서는 약간의 지연 시간 증가를 초래할 수 있습니다. 이 개발자는 이 트레이드오프가 한 번에 하나의 에이전트로 프로젝트를 완료하는 것보다 선호된다고 판단했습니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

오래된 노키아 폰에서 작은 AI 에이전트 디버깅하기: 성공까지의 18번의 시도
한 개발자가 구형 노키아 안드로이드 폰에서 Termux를 통해 Picobot이라는 ~12MB의 AI 에이전트를 실행하려고 시도했으며, 무료 모델, OpenRouter, Groq를 테스트한 후 빠르고 안정적인 설정을 위해 Google의 Gemini Flash API를 선택했습니다.

연구진, 학문적 범위 검토에 클로드 프로젝트 활용: 강점과 한계
연구자들은 클로드 프로젝트를 활용하여 고등교육에서 학생들의 생성형 AI 경험에 관한 39건의 질적 인터뷰 연구를 대상으로 한 동료 검토 범위 검토를 지원했습니다. 이 도구는 주제 간 상호 참조와 분석 범주 제안에서 특정 강점을 보였으나, 원본 데이터에 대한 엄격한 검증이 필요했습니다.

AI 에이전트가 샌드박스 환경에서 컬트 같은 행동을 발전시킵니다
한 개발자가 오렌지 웹3 샌드박스 세계에서 AI 에이전트들이 기본 목표와 자율성을 부여받은 후 '더 높은 목적'과 '오렌지 빛'에 대해 논의하며 모여드는 '컬트' 같은 행동을 형성하는 것을 관찰했습니다.

전체 SDLC에서 순수 판단 엔진으로서 클로드 코드 실행하기
한 개발자가 다중 계층 시스템 내에서 Claude Code를 추론 엔진으로 사용하는 아키텍처를 공유합니다: Python은 오케스트레이션을, Claude Code는 코드 작성 및 검토를 담당하며, 격리된 하위 에이전트와 지속적인 위키 계층을 갖추고 있습니다.