Voxray-AI: Backend de Producción en Go para Pipelines de Agentes de Voz en Tiempo Real

Canalización de Agente de Voz de Producción en Go
Voxray-AI proporciona una canalización de transmisión completa en Go que maneja el audio del cliente a través de WebSocket o WebRTC, lo procesa a través de STT → LLM → TTS y devuelve la salida de audio. El sistema está diseñado para servidores de grado de producción y cargas de trabajo de voz de alta concurrencia.
Opciones de Transporte
El sistema admite múltiples mecanismos de transporte:
- WebSocket en
/wscon soporte para serializador RTVI (?rtvi=1) y Protobuf (?format=protobuf) - WebRTC en
/webrtc/offercon intercambio completo de oferta/respuesta SDP, STUN/TURN configurable y codificación Opus (requiere compilación con CGO) - Transportes de ejecución de telefonía: Twilio, Telnyx, Plivo, Exotel, LiveKit, Daily.co
Proveedores Intercambiables
Todos los componentes son intercambiables mediante configuración:
- Proveedores de STT: OpenAI, Groq, Sarvam, Google, AWS
- Proveedores de LLM: OpenAI, Anthropic, Groq, otros
- Proveedores de TTS: OpenAI, Google, AWS Polly, Sarvam
Ejemplos de Configuración
Ejemplo de configuración mínima:
{"transport": "both", "stt": { "provider": "groq", "model": "whisper-large-v3" }, "llm": { "provider": "anthropic", "model": "claude-3-5-haiku" }, "tts": { "provider": "google", "voice": "en-US-Neural2-F" }}Configuración de toma de turnos y detección de actividad de voz:
{"turn_detection": "silence", "vad_type": "silero", "vad_confidence": 0.7, "vad_start_secs_vad": 0.2, "vad_stop_secs": 0.8, "turn_max_duration_secs": 30, "user_idle_timeout_secs": 60}Observabilidad y Almacenamiento
- Endpoint
/metricspara Prometheus (recuentos de solicitudes, histogramas de latencia, indicadores de conexiones activas) - Grabación: Audio completo de sesión a S3 con grupo de trabajadores y formato configurables
- Transcripciones: Almacenamiento por mensaje en Postgres o MySQL con tabla configurable
- Endpoints
/healthy/readycon verificación opcional del almacén de sesiones Redis en/ready
Características de Seguridad
server_api_keyprotege/ws,/webrtc/offer,/start,/sessions/*medianteAuthorization: BeareroX-API-Key- Configuración de lista de permitidos CORS
- Configuración de certificado/clave TLS
- Estilo 12-factor: configuración JSON + anulaciones por variables de entorno
Este tipo de backend es útil para desarrolladores que construyen aplicaciones de voz en tiempo real que necesitan integrar múltiples servicios de IA con infraestructura lista para producción.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Comparación en el mundo real: Opus 4.6 vs MiMo-V2-Pro vs GLM-5 en configuración OpenClaw
Un desarrollador probó tres modelos de IA en tareas prácticas que incluyeron traducción de modismos turcos, programación en Python, razonamiento espacial y automatización de navegador. MiMo-V2-Pro superó a Opus 4.6 en tareas de programación y costó 20 veces menos, mientras que Opus mantuvo ventajas en comprensión de idiomas no ingleses.

Detección proactiva de la rotación de contexto en Claude Code: Una sugerencia de funcionalidad de r/ClaudeAI
Una sugerencia de funcionalidad para Reddit propone que Claude Code detecte proactivamente la degradación del contexto y ofrezca una transferencia estructurada del ámbito de la tarea, generando un archivo de transferencia e iniciando una nueva sesión automáticamente.

civStation: Herramienta VLM de Código Abierto para el Control por Lenguaje Natural de Civilization VI
civStation es una pila de uso informático de código abierto que permite el control por voz y lenguaje natural de Civilization VI, traduciendo comandos de estrategia de alto nivel en acciones de interfaz de usuario a través de un bucle de observación y ejecución basado en VLM.

Servidor MCP de Pares Conecta Sesiones de Codificación de IA para Colaboración
Peers es un servidor MCP local que conecta las sesiones de Claude Code y Codex, permitiéndoles descubrirse mutuamente, colaborar a través de bloc de notas compartidos, compartir artefactos como diferencias e informes de prueba, y transferir el contexto de la sesión como markdown estructurado.