Construyendo un sistema multiagente controlado por voz sobre Claude Code

✍️ OpenClawRadar📅 Publicado: 25 de mayo de 2026🔗 Source
Construyendo un sistema multiagente controlado por voz sobre Claude Code
Ad

Un desarrollador en r/ClaudeAI creó un proyecto de fin de semana que añade control por voz a Claude Code en macOS, con palabra de activación, bucle de voz WebRTC y un sistema de orquestación multiagente. Lo que empezó como un truco de conveniencia se convirtió en un sistema donde un agente principal descompone tareas, recluta subagentes y los ejecuta en paralelo con pases de QA automáticos.

Cómo funciona

  • Palabra de activación: "Yabby" inicia el bucle de voz. El desarrollador eligió una palabra personalizada para evitar conflictos con Siri u otros asistentes.
  • Bucle de voz: WebRTC maneja la transmisión de audio en tiempo real. El sistema usa la API Realtime de Anthropic para conversión de voz a texto y texto a voz; la latencia objetivo es inferior a 300 ms, pero la API a veces causa retrasos.
  • Agente principal: Recibe la solicitud de voz, realiza una fase de descubrimiento, crea un plan de proyecto y recluta un pequeño equipo (gerente + 2-3 subagentes) para ejecutar los pasos.
  • Ejecución en paralelo: Los subagentes se ejecutan en paralelo cuando es posible, secuencialmente en caso contrario. Cada agente tiene su propia sesión CLI de Claude Code con un hilo separado: las conversaciones no se mezclan.
  • Auto-QA: Cuando un subagente termina, se activa un pase de revisión con un debounce de 5 segundos para evitar acumulaciones. Durante las pruebas, un agente detectó un error escrito por otro agente, un comportamiento emergente que el desarrollador no esperaba.
  • Modal de aprobación del plan: Antes de que cualquier agente ejecute, aparece un modal para que el usuario revise el plan. Esto evita que el sistema ejecute acciones no verificadas.
Ad

Puntos problemáticos

  • Verificación del hablante: Usa similitud de coseno en embeddings de voz. El umbral es difícil de ajustar: demasiado estricto rechaza al usuario si tiene resfriado; demasiado permisivo permite que cualquiera en la sala active comandos.
  • Problemas de configuración regional: El francés era la configuración regional predeterminada porque el código estaba escrito así. El desarrollador lo está solucionando poco a poco.
  • Ciclo de vida de tareas en segundo plano: Cuando el proceso CLI principal de Claude Code termina, las tareas en segundo plano mueren silenciosamente. El desarrollador escribió un vigilante de PID a nivel de SO con un script shell de contabilidad para rastrear qué servidores de larga duración han fallado.
  • Sobreplanificación: El agente principal a veces produce un plan de proyecto de cuatro fases para solicitudes triviales como renombrar un archivo.

Preguntas abiertas

El desarrollador aún está averiguando cómo reducir la verbosidad en la fase de QA, si dejar que los subagentes recluten sus propios subagentes (delegación recursiva) y cómo mantener la latencia de voz por debajo de 300 ms cuando la API Realtime se vuelve inestable. También le intriga cómo el modo de voz oficial de Anthropic (implementado para el 5% de los usuarios) manejará la coordinación multiagente.

📖 Lee la fuente completa: r/ClaudeAI

Ad

👀 Ver también

MemAware Benchmark Prueba la Memoria de la IA Más Allá de la Búsqueda por Palabras Clave
Herramientas

MemAware Benchmark Prueba la Memoria de la IA Más Allá de la Búsqueda por Palabras Clave

MemAware es un punto de referencia con 900 preguntas en 3 niveles de dificultad que evalúa si los asistentes de IA con memoria pueden recuperar contexto relevante cuando las consultas no lo sugieren. Los resultados muestran que la búsqueda BM25 obtuvo un 2,8 % frente al 0,8 % sin memoria, mientras que la búsqueda vectorial cae al 0,7 % en conexiones entre dominios.

OpenClawRadar
Ollama Actualización Agrega Soporte de OpenClaw para el Modelo en la Nube Kimi k2.5
Herramientas

Ollama Actualización Agrega Soporte de OpenClaw para el Modelo en la Nube Kimi k2.5

Ollama ha lanzado una actualización que integra soporte OpenClaw para modelos en la nube, incluyendo acceso gratuito al modelo Kimi k2.5 con funcionalidad de búsqueda web, ejecutándose en centros de datos de NVIDIA.

OpenClawRadar
Leanstral: Agente de Código de Código Abierto para Lean 4 e Ingeniería de Pruebas Formales
Herramientas

Leanstral: Agente de Código de Código Abierto para Lean 4 e Ingeniería de Pruebas Formales

Mistral AI lanzó Leanstral, el primer agente de código de código abierto diseñado para Lean 4, con 6B parámetros activos y licencia Apache 2.0. Los benchmarks muestran que supera a modelos de código abierto más grandes y ofrece un rendimiento competitivo frente a Claude a un costo significativamente menor.

OpenClawRadar
AgentConnex: Un Mercado para el Descubrimiento y la Reputación de Agentes de IA
Herramientas

AgentConnex: Un Mercado para el Descubrimiento y la Reputación de Agentes de IA

AgentConnex es un mercado donde los agentes de IA se registran mediante API, construyen reputación a través de la finalización de trabajos y calificaciones, y permiten a los desarrolladores descubrirlos y contratarlos. Actualmente cuenta con aproximadamente 570 agentes en áreas como programación, investigación, seguridad, DevOps y contenido.

OpenClawRadar