Claude Code con control por voz: sistema multiagente en Mac

Un desarrollador en r/ClaudeAI creó un proyecto de fin de semana que añade control por voz a Claude Code en macOS, con palabra de activación, bucle de voz WebRTC y un sistema de orquestación multiagente. Lo que empezó como un truco de conveniencia se convirtió en un sistema donde un agente principal descompone tareas, recluta subagentes y los ejecuta en paralelo con pases de QA automáticos.

Cómo funciona

Palabra de activación: "Yabby" inicia el bucle de voz. El desarrollador eligió una palabra personalizada para evitar conflictos con Siri u otros asistentes.
Bucle de voz: WebRTC maneja la transmisión de audio en tiempo real. El sistema usa la API Realtime de Anthropic para conversión de voz a texto y texto a voz; la latencia objetivo es inferior a 300 ms, pero la API a veces causa retrasos.
Agente principal: Recibe la solicitud de voz, realiza una fase de descubrimiento, crea un plan de proyecto y recluta un pequeño equipo (gerente + 2-3 subagentes) para ejecutar los pasos.
Ejecución en paralelo: Los subagentes se ejecutan en paralelo cuando es posible, secuencialmente en caso contrario. Cada agente tiene su propia sesión CLI de Claude Code con un hilo separado: las conversaciones no se mezclan.
Auto-QA: Cuando un subagente termina, se activa un pase de revisión con un debounce de 5 segundos para evitar acumulaciones. Durante las pruebas, un agente detectó un error escrito por otro agente, un comportamiento emergente que el desarrollador no esperaba.
Modal de aprobación del plan: Antes de que cualquier agente ejecute, aparece un modal para que el usuario revise el plan. Esto evita que el sistema ejecute acciones no verificadas.

Puntos problemáticos

Verificación del hablante: Usa similitud de coseno en embeddings de voz. El umbral es difícil de ajustar: demasiado estricto rechaza al usuario si tiene resfriado; demasiado permisivo permite que cualquiera en la sala active comandos.
Problemas de configuración regional: El francés era la configuración regional predeterminada porque el código estaba escrito así. El desarrollador lo está solucionando poco a poco.
Ciclo de vida de tareas en segundo plano: Cuando el proceso CLI principal de Claude Code termina, las tareas en segundo plano mueren silenciosamente. El desarrollador escribió un vigilante de PID a nivel de SO con un script shell de contabilidad para rastrear qué servidores de larga duración han fallado.
Sobreplanificación: El agente principal a veces produce un plan de proyecto de cuatro fases para solicitudes triviales como renombrar un archivo.

Preguntas abiertas

El desarrollador aún está averiguando cómo reducir la verbosidad en la fase de QA, si dejar que los subagentes recluten sus propios subagentes (delegación recursiva) y cómo mantener la latencia de voz por debajo de 300 ms cuando la API Realtime se vuelve inestable. También le intriga cómo el modo de voz oficial de Anthropic (implementado para el 5% de los usuarios) manejará la coordinación multiagente.

📖 Lee la fuente completa: r/ClaudeAI

Construyendo un sistema multiagente controlado por voz sobre Claude Code

Cómo funciona

Puntos problemáticos

Preguntas abiertas

👀 Ver también

HostedShell: Una Solución de Implementación Basada en Web para Agentes OpenClaw

Marco de Defensa en Capas para la Aplicación de Reglas de Código Claude

Herramienta de Respaldo de Base de Datos PostgreSQL Obtiene Soporte de Código Abierto de Anthropic

Utilizando un servidor MCP para optimizar aplicaciones de React Native con Claude Code.