클로드 코드 기반 음성 제어 멀티에이전트 시스템 구축

r/ClaudeAI의 한 개발자가 주말 프로젝트로 macOS에서 Claude Code에 음성 제어를 추가했습니다. 웨이크 워드, WebRTC 음성 루프, 멀티 에이전트 오케스트레이션 시스템을 갖추고 있습니다. 처음에는 편의를 위한 해킹으로 시작했지만, 리드 에이전트가 작업을 분해하고 서브 에이전트를 모집하여 병렬로 실행하며 자동 QA 패스를 트리거하는 시스템이 되었습니다.
작동 방식
- 웨이크 워드: "Yabby"가 음성 루프를 트리거합니다. 개발자는 Siri나 다른 비서와의 충돌을 피하기 위해 사용자 정의 웨이크 워드를 선택했습니다.
- 음성 루프: WebRTC가 실시간 오디오 스트리밍을 처리합니다. 시스템은 Anthropic의 Realtime API를 사용하여 음성-텍스트 및 텍스트-음성 변환을 수행합니다. 목표 지연 시간은 300ms 미만이지만, API가 가끔 지연을 유발합니다.
- 리드 에이전트: 음성 요청을 받고, 탐색 단계를 수행하며, 프로젝트 계획을 작성하고, 소규모 팀(관리자 + 2-3명의 서브 에이전트)을 모집하여 단계를 실행합니다.
- 병렬 실행: 가능한 경우 서브 에이전트는 병렬로 실행되고, 그렇지 않으면 순차적으로 실행됩니다. 각 에이전트는 별도의 스레드에서 자체 Claude Code CLI 세션을 얻습니다. 대화가 섞이지 않습니다.
- 자동 QA: 서브 에이전트가 완료되면 5초 디바운스로 리뷰 패스가 트리거되어 충돌을 방지합니다. 테스트 중 한 에이전트가 다른 에이전트가 작성한 버그를 발견했습니다. 이는 개발자가 예상하지 못한 창발적 행동입니다.
- 계획 승인 모달: 에이전트가 실행되기 전에 사용자가 계획을 검토할 수 있는 모달이 나타납니다. 이는 검증되지 않은 작업이 실행되는 것을 방지합니다.
문제점
- 화자 확인: 화자 임베딩에 코사인 유사도를 사용합니다. 임계값 조정이 어렵습니다. 너무 엄격하면 감기에 걸렸을 때 사용자를 거부하고, 너무 느슨하면 방 안의 누구나 명령을 트리거할 수 있습니다.
- 로케일 문제: 코드가 그렇게 작성되었기 때문에 기본 로케일이 프랑스어였습니다. 개발자가 천천히 수정 중입니다.
- 백그라운드 작업 생명주기: 부모 Claude Code CLI 프로세스가 종료되면 백그라운드 작업이 조용히 사라집니다. 개발자는 OS 수준의 PID 감시기를 작성하고, 장기 실행 서버가 충돌한 시점을 추적하는 부기장 셸 스크립트를 추가했습니다.
- 과도한 계획: 리드 에이전트가 파일 이름 변경과 같은 간단한 요청에 대해 4단계 프로젝트 계획을 생성하기도 합니다.
미해결 질문
개발자는 QA 단계에서 장황함을 줄이는 방법, 서브 에이전트가 자신의 서브 에이전트를 모집하도록 허용할지(재귀적 위임), Realtime API가 불안정할 때 음성 지연 시간을 300ms 미만으로 유지하는 방법을 여전히 고민 중입니다. 또한 Anthropic의 공식 음성 모드(사용자의 5%에게 출시됨)가 멀티 에이전트 조정을 어떻게 처리할지 궁금해하고 있습니다.
📖 전체 소스 읽기: r/ClaudeAI
👀 See Also

오픈소스 북 제네시스: 자율적 책 쓰기를 위한 20가지 클로드 코드 스킬
북 제네시스는 20개의 전문화된 클로드 코드 스킬로 구성된 오픈소스 시스템으로, 책 아이디어 하나에서 완성된 출간 준비된 원고를 14단계 자동화 파이프라인을 통해 생성합니다. '카오스 엔진'을 포함해 AI 예측 가능성을 깨는 기능이 있으며, 68,000단어 회고록을 생성하여 제네시스 점수 9.0/10을 기록했습니다.

Claude-Code v2.1.63은 HTTP 훅, 슬래시 명령어를 추가하고 메모리 누수를 수정했습니다.
Claude-Code v2.1.63은 JSON 기반 외부 호출을 위한 HTTP 훅을 도입하고, /simplify 및 /batch 슬래시 명령어를 추가하며, 장시간 실행 세션에서의 여러 메모리 누수를 수정합니다. 이번 릴리스는 또한 MCP 서버 처리와 VSCode 통합을 개선합니다.

에이전트 시스템에서 결정론적 워크플로가 AI 기반 오케스트레이션보다 뛰어난 이유
에이전트 시스템을 1년간 구축한 경험을 가진 개발자가 AI 기반 오케스트레이션이 비결정적 라우팅, 오류 누적, 비용 폭발, 디버깅 불가능으로 인해 신뢰성 있게 실패했다고 밝혔습니다. 코드 기반 오케스트레이션을 사용한 결정적 워크플로우로 전환하여 오케스트레이션 실패를 제거했습니다.
클로드 코드 스킬 세금: 2,596개 설치, 40개 사용, 월 91달러 낭비
설치된 모든 Claude Code 스킬은 모든 세션의 시스템 프롬프트에 로드됩니다. 한 사용자가 세션당 102,651개의 토큰이 로드되었고, 그중 98.6%가 사용되지 않아 월 약 91달러의 비용이 발생한다고 측정했습니다. 오픈소스 도구 skill-tax는 사용량과 비용을 감사합니다.