Voxray-AI: Backend Go para Pipelines de Voz em Tempo Real com Whisper, LLM e TTS

Pipeline de Agente de Voz de Produção em Go

O Voxray-AI fornece um pipeline de streaming completo em Go que processa o áudio do cliente através de WebSocket ou WebRTC, processa-o através de STT → LLM → TTS e retorna a saída de áudio. O sistema é projetado para servidores de nível de produção e cargas de trabalho de voz de alta concorrência.

Opções de Transporte

O sistema suporta múltiplos mecanismos de transporte:

WebSocket em /ws com suporte a serializador RTVI (?rtvi=1) e Protobuf (?format=protobuf)
WebRTC em /webrtc/offer com oferta/resposta SDP completa, STUN/TURN configurável e codificação Opus (requer compilação CGO)
Transportes de execução de telefonia: Twilio, Telnyx, Plivo, Exotel, LiveKit, Daily.co

Provedores Plugáveis

Todos os componentes são intercambiáveis via configuração:

Provedores de STT: OpenAI, Groq, Sarvam, Google, AWS
Provedores de LLM: OpenAI, Anthropic, Groq, outros
Provedores de TTS: OpenAI, Google, AWS Polly, Sarvam

Exemplos de Configuração

Exemplo mínimo de configuração:

{"transport": "both", "stt": { "provider": "groq", "model": "whisper-large-v3" }, "llm": { "provider": "anthropic", "model": "claude-3-5-haiku" }, "tts": { "provider": "google", "voice": "en-US-Neural2-F" }}

Configuração de detecção de vez e atividade de voz:

{"turn_detection": "silence", "vad_type": "silero", "vad_confidence": 0.7, "vad_start_secs_vad": 0.2, "vad_stop_secs": 0.8, "turn_max_duration_secs": 30, "user_idle_timeout_secs": 60}

Observabilidade e Armazenamento

Endpoint /metrics para Prometheus (contagens de requisições, histogramas de latência, medidores de conexões ativas)
Gravação: Áudio completo da sessão para S3 com pool de workers configurável e formato
Transcrições: Armazenamento por mensagem para Postgres ou MySQL com tabela configurável
Endpoints /health e /ready com verificação opcional de armazenamento de sessão Redis em /ready

Recursos de Segurança

server_api_key protege /ws, /webrtc/offer, /start, /sessions/* via Authorization: Bearer ou X-API-Key
Configuração de lista de permissões CORS
Configuração de certificado/chave TLS
Estilo 12-factor: configuração JSON + substituições por variáveis de ambiente

Este tipo de backend é útil para desenvolvedores que constroem aplicações de voz em tempo real que precisam integrar múltiplos serviços de IA com infraestrutura pronta para produção.

📖 Leia o código-fonte completo: r/LocalLLaMA