Voxray-AI: Backend de Producción en Go para Pipelines de Agentes de Voz en Tiempo Real

✍️ OpenClawRadar📅 Publicado: 10 de marzo de 2026🔗 Source
Voxray-AI: Backend de Producción en Go para Pipelines de Agentes de Voz en Tiempo Real
Ad

Canalización de Agente de Voz de Producción en Go

Voxray-AI proporciona una canalización de transmisión completa en Go que maneja el audio del cliente a través de WebSocket o WebRTC, lo procesa a través de STT → LLM → TTS y devuelve la salida de audio. El sistema está diseñado para servidores de grado de producción y cargas de trabajo de voz de alta concurrencia.

Opciones de Transporte

El sistema admite múltiples mecanismos de transporte:

  • WebSocket en /ws con soporte para serializador RTVI (?rtvi=1) y Protobuf (?format=protobuf)
  • WebRTC en /webrtc/offer con intercambio completo de oferta/respuesta SDP, STUN/TURN configurable y codificación Opus (requiere compilación con CGO)
  • Transportes de ejecución de telefonía: Twilio, Telnyx, Plivo, Exotel, LiveKit, Daily.co

Proveedores Intercambiables

Todos los componentes son intercambiables mediante configuración:

  • Proveedores de STT: OpenAI, Groq, Sarvam, Google, AWS
  • Proveedores de LLM: OpenAI, Anthropic, Groq, otros
  • Proveedores de TTS: OpenAI, Google, AWS Polly, Sarvam

Ejemplos de Configuración

Ejemplo de configuración mínima:

{"transport": "both", "stt": { "provider": "groq", "model": "whisper-large-v3" }, "llm": { "provider": "anthropic", "model": "claude-3-5-haiku" }, "tts": { "provider": "google", "voice": "en-US-Neural2-F" }}

Configuración de toma de turnos y detección de actividad de voz:

{"turn_detection": "silence", "vad_type": "silero", "vad_confidence": 0.7, "vad_start_secs_vad": 0.2, "vad_stop_secs": 0.8, "turn_max_duration_secs": 30, "user_idle_timeout_secs": 60}
Ad

Observabilidad y Almacenamiento

  • Endpoint /metrics para Prometheus (recuentos de solicitudes, histogramas de latencia, indicadores de conexiones activas)
  • Grabación: Audio completo de sesión a S3 con grupo de trabajadores y formato configurables
  • Transcripciones: Almacenamiento por mensaje en Postgres o MySQL con tabla configurable
  • Endpoints /health y /ready con verificación opcional del almacén de sesiones Redis en /ready

Características de Seguridad

  • server_api_key protege /ws, /webrtc/offer, /start, /sessions/* mediante Authorization: Bearer o X-API-Key
  • Configuración de lista de permitidos CORS
  • Configuración de certificado/clave TLS
  • Estilo 12-factor: configuración JSON + anulaciones por variables de entorno

Este tipo de backend es útil para desarrolladores que construyen aplicaciones de voz en tiempo real que necesitan integrar múltiples servicios de IA con infraestructura lista para producción.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Comparación en el mundo real: Opus 4.6 vs MiMo-V2-Pro vs GLM-5 en configuración OpenClaw
Herramientas

Comparación en el mundo real: Opus 4.6 vs MiMo-V2-Pro vs GLM-5 en configuración OpenClaw

Un desarrollador probó tres modelos de IA en tareas prácticas que incluyeron traducción de modismos turcos, programación en Python, razonamiento espacial y automatización de navegador. MiMo-V2-Pro superó a Opus 4.6 en tareas de programación y costó 20 veces menos, mientras que Opus mantuvo ventajas en comprensión de idiomas no ingleses.

OpenClawRadar
Detección proactiva de la rotación de contexto en Claude Code: Una sugerencia de funcionalidad de r/ClaudeAI
Herramientas

Detección proactiva de la rotación de contexto en Claude Code: Una sugerencia de funcionalidad de r/ClaudeAI

Una sugerencia de funcionalidad para Reddit propone que Claude Code detecte proactivamente la degradación del contexto y ofrezca una transferencia estructurada del ámbito de la tarea, generando un archivo de transferencia e iniciando una nueva sesión automáticamente.

OpenClawRadar
civStation: Herramienta VLM de Código Abierto para el Control por Lenguaje Natural de Civilization VI
Herramientas

civStation: Herramienta VLM de Código Abierto para el Control por Lenguaje Natural de Civilization VI

civStation es una pila de uso informático de código abierto que permite el control por voz y lenguaje natural de Civilization VI, traduciendo comandos de estrategia de alto nivel en acciones de interfaz de usuario a través de un bucle de observación y ejecución basado en VLM.

OpenClawRadar
Servidor MCP de Pares Conecta Sesiones de Codificación de IA para Colaboración
Herramientas

Servidor MCP de Pares Conecta Sesiones de Codificación de IA para Colaboración

Peers es un servidor MCP local que conecta las sesiones de Claude Code y Codex, permitiéndoles descubrirse mutuamente, colaborar a través de bloc de notas compartidos, compartir artefactos como diferencias e informes de prueba, y transferir el contexto de la sesión como markdown estructurado.

OpenClawRadar