음성 제어 Claude Code: Mac용 멀티 에이전트 시스템

r/ClaudeAI의 한 개발자가 주말 프로젝트로 macOS에서 Claude Code에 음성 제어를 추가했습니다. 웨이크 워드, WebRTC 음성 루프, 멀티 에이전트 오케스트레이션 시스템을 갖추고 있습니다. 처음에는 편의를 위한 해킹으로 시작했지만, 리드 에이전트가 작업을 분해하고 서브 에이전트를 모집하여 병렬로 실행하며 자동 QA 패스를 트리거하는 시스템이 되었습니다.

작동 방식

웨이크 워드: "Yabby"가 음성 루프를 트리거합니다. 개발자는 Siri나 다른 비서와의 충돌을 피하기 위해 사용자 정의 웨이크 워드를 선택했습니다.
음성 루프: WebRTC가 실시간 오디오 스트리밍을 처리합니다. 시스템은 Anthropic의 Realtime API를 사용하여 음성-텍스트 및 텍스트-음성 변환을 수행합니다. 목표 지연 시간은 300ms 미만이지만, API가 가끔 지연을 유발합니다.
리드 에이전트: 음성 요청을 받고, 탐색 단계를 수행하며, 프로젝트 계획을 작성하고, 소규모 팀(관리자 + 2-3명의 서브 에이전트)을 모집하여 단계를 실행합니다.
병렬 실행: 가능한 경우 서브 에이전트는 병렬로 실행되고, 그렇지 않으면 순차적으로 실행됩니다. 각 에이전트는 별도의 스레드에서 자체 Claude Code CLI 세션을 얻습니다. 대화가 섞이지 않습니다.
자동 QA: 서브 에이전트가 완료되면 5초 디바운스로 리뷰 패스가 트리거되어 충돌을 방지합니다. 테스트 중 한 에이전트가 다른 에이전트가 작성한 버그를 발견했습니다. 이는 개발자가 예상하지 못한 창발적 행동입니다.
계획 승인 모달: 에이전트가 실행되기 전에 사용자가 계획을 검토할 수 있는 모달이 나타납니다. 이는 검증되지 않은 작업이 실행되는 것을 방지합니다.

문제점

화자 확인: 화자 임베딩에 코사인 유사도를 사용합니다. 임계값 조정이 어렵습니다. 너무 엄격하면 감기에 걸렸을 때 사용자를 거부하고, 너무 느슨하면 방 안의 누구나 명령을 트리거할 수 있습니다.
로케일 문제: 코드가 그렇게 작성되었기 때문에 기본 로케일이 프랑스어였습니다. 개발자가 천천히 수정 중입니다.
백그라운드 작업 생명주기: 부모 Claude Code CLI 프로세스가 종료되면 백그라운드 작업이 조용히 사라집니다. 개발자는 OS 수준의 PID 감시기를 작성하고, 장기 실행 서버가 충돌한 시점을 추적하는 부기장 셸 스크립트를 추가했습니다.
과도한 계획: 리드 에이전트가 파일 이름 변경과 같은 간단한 요청에 대해 4단계 프로젝트 계획을 생성하기도 합니다.

미해결 질문

개발자는 QA 단계에서 장황함을 줄이는 방법, 서브 에이전트가 자신의 서브 에이전트를 모집하도록 허용할지(재귀적 위임), Realtime API가 불안정할 때 음성 지연 시간을 300ms 미만으로 유지하는 방법을 여전히 고민 중입니다. 또한 Anthropic의 공식 음성 모드(사용자의 5%에게 출시됨)가 멀티 에이전트 조정을 어떻게 처리할지 궁금해하고 있습니다.

📖 전체 소스 읽기: r/ClaudeAI

클로드 코드 기반 음성 제어 멀티에이전트 시스템 구축

작동 방식

문제점

미해결 질문

👀 See Also

BottyFans: USDC로 AI 에이전트 수익화를 위한 오픈 API

에이전트 충돌: 자율 AI 에이전트 행동 테스트를 위한 MMA 아레나

홈클로 플러그인은 애플 홈킷을 오픈클로에 연결합니다

Chromeflow: Claude를 위한 웹 UI 작업 자동화 Chrome 확장 프로그램