Claude Code com Controle de Voz: Sistema Multiagente no Mac

Um desenvolvedor no r/ClaudeAI criou um projeto de fim de semana que adiciona controle de voz ao Claude Code no macOS, completo com palavra de comando, loop de voz WebRTC e um sistema de orquestração multiagente. O que começou como um hack de conveniência se transformou em um sistema onde um agente líder decompõe tarefas, recruta subagentes e os executa em paralelo com verificações de QA acionadas automaticamente.

Como funciona

Palavra de comando: "Yabby" ativa o loop de voz. O desenvolvedor escolheu uma palavra personalizada para evitar conflitos com Siri ou outros assistentes.
Loop de voz: WebRTC gerencia streaming de áudio em tempo real. O sistema usa a API Realtime da Anthropic para fala-para-texto e texto-para-fala; a latência alvo é inferior a 300 ms, mas a API às vezes causa atrasos.
Agente líder: Recebe a solicitação de voz, realiza uma fase de descoberta, cria um plano de projeto e recruta uma pequena equipe (gerente + 2-3 subagentes) para executar as etapas.
Execução paralela: Subagentes executam em paralelo quando possível, sequencialmente caso contrário. Cada agente tem sua própria sessão CLI do Claude Code com uma thread separada — as conversas não se misturam.
QA automático: Quando um subagente termina, uma revisão é acionada com um debounce de 5 segundos para evitar acúmulos. Durante os testes, um agente pegou um bug escrito por outro agente — um comportamento emergente que o desenvolvedor não esperava.
Modal de aprovação do plano: Antes de qualquer agente executar, um modal aparece para o usuário revisar o plano. Isso impede que o sistema execute ações não verificadas.

Pontos problemáticos

Verificação do falante: Usa similaridade de cosseno em embeddings de voz. O limite é difícil de ajustar — muito restrito rejeita o usuário quando ele está resfriado; muito aberto permite que qualquer pessoa no ambiente acione comandos.
Problemas de localidade: O francês era o idioma padrão porque o código foi escrito assim. O desenvolvedor está corrigindo aos poucos.
Ciclo de vida de tarefas em segundo plano: Quando o processo pai do Claude Code CLI termina, as tarefas em segundo plano morrem silenciosamente. O desenvolvedor criou um monitor de PID em nível de sistema operacional com um script shell bookkeeper para rastrear quais servidores de longa duração falharam.
Excesso de planejamento: O agente líder às vezes produz um plano de projeto em quatro fases para solicitações triviais, como renomear um arquivo.

Perguntas em aberto

O desenvolvedor ainda está tentando descobrir como reduzir a verbosidade na fase de QA, se deve permitir que subagentes recrutem seus próprios subagentes (delegação recursiva) e como manter a latência de voz abaixo de 300 ms quando a API Realtime fica lenta. Ele também está curioso para saber como o modo de voz oficial da Anthropic (distribuído para 5% dos usuários) lidará com a coordenação multiagente.

📖 Leia a fonte completa: r/ClaudeAI

Construindo um sistema multiagente controlado por voz sobre o Claude Code

Como funciona

Pontos problemáticos

Perguntas em aberto

👀 See Also

ZuckerBot Servidor MCP Permite que Agentes OpenClaw Executem Campanhas de Anúncios Meta

ClawControl v1.7.1 corrige problemas de uso diário no cliente OpenClaw

Cérebro Aberto: servidor MCP de código aberto adiciona memória persistente com auto-grafo e busca semântica ao Claude

Plug-in de código Claude de código aberto simula o Escritório Chefe de Dados e IA com 22 agentes especializados