ClawVibe: Un asistente de voz manos libres para iOS para agentes de IA con STT/TTS en el dispositivo

✍️ OpenClawRadar📅 Publicado: 17 de mayo de 2026🔗 Source
ClawVibe: Un asistente de voz manos libres para iOS para agentes de IA con STT/TTS en el dispositivo
Ad

ClawVibe es un asistente de voz nativo de iOS que te permite hablar con tu agente de IA completamente manos libres, diseñado para usar mientras conduces. El desarrollador lo creó tras enfrentarse al problema de un trayecto de 45 minutos donde las soluciones con el teléfono en la mano no eran seguras y las interfaces web requerían toques. Tras dos meses de trabajo, la aplicación está ahora en beta de TestFlight y será gratuita en la App Store.

Decisiones técnicas clave

La decisión arquitectónica principal: procesar todo el audio en el dispositivo. La versión inicial transmitía el audio de voz a un servidor para su transcripción, pero se encontró con picos de latencia y pérdida de paquetes en redes móviles. La solución fue manejar el reconocimiento de voz y la conversión de texto a voz en el teléfono, enviando solo el texto transcrito a través de la red. Esto elimina los problemas de conectividad; funciona incluso en áreas con poca cobertura.

El procesamiento en el dispositivo presentó un desafío técnico: la mayoría de los modelos de ML usan el framework Metal de Apple (aceleración GPU), que Apple no permite ejecutar en segundo plano. Por lo tanto, la aplicación recurre a CoreML estándar sin aceleración GPU para mantener activos la detección y el procesamiento de voz mientras la pantalla está apagada, una concesión necesaria para el uso manos libres.

El ruido de fondo (indicaciones del GPS, conversaciones, radio) fue otro punto crítico. La solución es la biometría de voz: la aplicación aprende tu perfil de voz y solo envía el habla reconocida a la IA. Los anuncios del GPS y otros ruidos se ignoran.

Ad

Características

  • Reconocimiento de voz en el dispositivo: Transcrito localmente; no se envía audio a Apple ni a Google. Solo el texto va a tu backend de IA.
  • TTS en el dispositivo: Múltiples opciones de voz, salida a través del teléfono o los altavoces de CarPlay.
  • Detección de voz siempre activa: Sin necesidad de pulsar un botón ni palabra de activación; sabe cuándo estás hablando.
  • Integración con CarPlay: Totalmente manos libres en el coche, la razón original para desarrollarlo.
  • Reconocimiento de voz principal: Solo tu voz registrada activa la IA; los sonidos de fondo se filtran.
  • Contexto GPS: Se envía la ubicación con cada mensaje para respuestas conscientes de la ubicación.

Backend y disponibilidad

Necesitas tu propio backend de IA para conectar ClawVibe. Soporta varias configuraciones, con más integraciones en desarrollo. Si ya ejecutas una instancia de OpenClaw, estás listo. Si no, puedes probar la aplicación con un modelo local en el dispositivo.

La aplicación está actualmente en beta de TestFlight. Una versión gratuita en la App Store proporcionará la experiencia completa de voz principal. Un nivel Premium (que llegará más tarde) añadirá más voces, múltiples perfiles de voz, interfaz de CarPlay ampliada, soporte para Apple Watch y más.

Para quién es

Desarrolladores que alojan sus propios agentes de IA y desean una interfaz de voz manos libres centrada en la privacidad para conducir u otras situaciones con las manos ocupadas.

📖 Lee la fuente completa: r/openclaw

Ad

👀 Ver también