Voxray-AI: Backend Go para Pipelines de Voz en Tiempo Real

Canalización de Agente de Voz de Producción en Go

Voxray-AI proporciona una canalización de transmisión completa en Go que maneja el audio del cliente a través de WebSocket o WebRTC, lo procesa a través de STT → LLM → TTS y devuelve la salida de audio. El sistema está diseñado para servidores de grado de producción y cargas de trabajo de voz de alta concurrencia.

Opciones de Transporte

El sistema admite múltiples mecanismos de transporte:

WebSocket en /ws con soporte para serializador RTVI (?rtvi=1) y Protobuf (?format=protobuf)
WebRTC en /webrtc/offer con intercambio completo de oferta/respuesta SDP, STUN/TURN configurable y codificación Opus (requiere compilación con CGO)
Transportes de ejecución de telefonía: Twilio, Telnyx, Plivo, Exotel, LiveKit, Daily.co

Proveedores Intercambiables

Todos los componentes son intercambiables mediante configuración:

Proveedores de STT: OpenAI, Groq, Sarvam, Google, AWS
Proveedores de LLM: OpenAI, Anthropic, Groq, otros
Proveedores de TTS: OpenAI, Google, AWS Polly, Sarvam

Ejemplos de Configuración

Ejemplo de configuración mínima:

{"transport": "both", "stt": { "provider": "groq", "model": "whisper-large-v3" }, "llm": { "provider": "anthropic", "model": "claude-3-5-haiku" }, "tts": { "provider": "google", "voice": "en-US-Neural2-F" }}

Configuración de toma de turnos y detección de actividad de voz:

{"turn_detection": "silence", "vad_type": "silero", "vad_confidence": 0.7, "vad_start_secs_vad": 0.2, "vad_stop_secs": 0.8, "turn_max_duration_secs": 30, "user_idle_timeout_secs": 60}

Observabilidad y Almacenamiento

Endpoint /metrics para Prometheus (recuentos de solicitudes, histogramas de latencia, indicadores de conexiones activas)
Grabación: Audio completo de sesión a S3 con grupo de trabajadores y formato configurables
Transcripciones: Almacenamiento por mensaje en Postgres o MySQL con tabla configurable
Endpoints /health y /ready con verificación opcional del almacén de sesiones Redis en /ready

Características de Seguridad

server_api_key protege /ws, /webrtc/offer, /start, /sessions/* mediante Authorization: Bearer o X-API-Key
Configuración de lista de permitidos CORS
Configuración de certificado/clave TLS
Estilo 12-factor: configuración JSON + anulaciones por variables de entorno

Este tipo de backend es útil para desarrolladores que construyen aplicaciones de voz en tiempo real que necesitan integrar múltiples servicios de IA con infraestructura lista para producción.

📖 Read the full source: r/LocalLLaMA

Voxray-AI: Backend de Producción en Go para Pipelines de Agentes de Voz en Tiempo Real

Canalización de Agente de Voz de Producción en Go

Opciones de Transporte

Proveedores Intercambiables

Ejemplos de Configuración

Observabilidad y Almacenamiento

Características de Seguridad

👀 Ver también

Comparación en el mundo real: Opus 4.6 vs MiMo-V2-Pro vs GLM-5 en configuración OpenClaw

Detección proactiva de la rotación de contexto en Claude Code: Una sugerencia de funcionalidad de r/ClaudeAI

civStation: Herramienta VLM de Código Abierto para el Control por Lenguaje Natural de Civilization VI

Servidor MCP de Pares Conecta Sesiones de Codificación de IA para Colaboración