Voxray-AI: Backend de Produção em Go para Pipelines de Agentes de Voz em Tempo Real

Pipeline de Agente de Voz de Produção em Go
O Voxray-AI fornece um pipeline de streaming completo em Go que processa o áudio do cliente através de WebSocket ou WebRTC, processa-o através de STT → LLM → TTS e retorna a saída de áudio. O sistema é projetado para servidores de nível de produção e cargas de trabalho de voz de alta concorrência.
Opções de Transporte
O sistema suporta múltiplos mecanismos de transporte:
- WebSocket em
/wscom suporte a serializador RTVI (?rtvi=1) e Protobuf (?format=protobuf) - WebRTC em
/webrtc/offercom oferta/resposta SDP completa, STUN/TURN configurável e codificação Opus (requer compilação CGO) - Transportes de execução de telefonia: Twilio, Telnyx, Plivo, Exotel, LiveKit, Daily.co
Provedores Plugáveis
Todos os componentes são intercambiáveis via configuração:
- Provedores de STT: OpenAI, Groq, Sarvam, Google, AWS
- Provedores de LLM: OpenAI, Anthropic, Groq, outros
- Provedores de TTS: OpenAI, Google, AWS Polly, Sarvam
Exemplos de Configuração
Exemplo mínimo de configuração:
{"transport": "both", "stt": { "provider": "groq", "model": "whisper-large-v3" }, "llm": { "provider": "anthropic", "model": "claude-3-5-haiku" }, "tts": { "provider": "google", "voice": "en-US-Neural2-F" }}Configuração de detecção de vez e atividade de voz:
{"turn_detection": "silence", "vad_type": "silero", "vad_confidence": 0.7, "vad_start_secs_vad": 0.2, "vad_stop_secs": 0.8, "turn_max_duration_secs": 30, "user_idle_timeout_secs": 60}Observabilidade e Armazenamento
- Endpoint
/metricspara Prometheus (contagens de requisições, histogramas de latência, medidores de conexões ativas) - Gravação: Áudio completo da sessão para S3 com pool de workers configurável e formato
- Transcrições: Armazenamento por mensagem para Postgres ou MySQL com tabela configurável
- Endpoints
/healthe/readycom verificação opcional de armazenamento de sessão Redis em/ready
Recursos de Segurança
server_api_keyprotege/ws,/webrtc/offer,/start,/sessions/*viaAuthorization: BearerouX-API-Key- Configuração de lista de permissões CORS
- Configuração de certificado/chave TLS
- Estilo 12-factor: configuração JSON + substituições por variáveis de ambiente
Este tipo de backend é útil para desenvolvedores que constroem aplicações de voz em tempo real que precisam integrar múltiplos serviços de IA com infraestrutura pronta para produção.
📖 Leia o código-fonte completo: r/LocalLLaMA
👀 See Also

Espaço de Estados: Crie Aplicativos Web Interativos para Agentes OpenClaw com Markdown
Statespace é uma estrutura gratuita e de código aberto para criar e compartilhar aplicativos web amigáveis para IA que agentes OpenClaw podem navegar e interagir usando Markdown puro. Permite definir ferramentas, componentes e instruções em arquivos Markdown que os agentes acessam via HTTP.

SWE-CI: Novos Testes de Referência Avaliam Agentes de IA na Manutenção de Código de Longo Prazo via CI
SWE-CI é um benchmark em nível de repositório que avalia agentes baseados em LLM na manutenção de bases de código através de ciclos de integração contínua, deslocando o foco da correção estática de bugs para a manutenibilidade de longo prazo em 100 tarefas do mundo real.

Contador de Tokens do Claude Atualizado com Recurso de Comparação de Modelos
A ferramenta Contador de Tokens do Claude de Simon Willison agora suporta a comparação de contagens de tokens entre diferentes modelos do Claude. A atualização revela que o Opus 4.7 usa 1,0–1,35× mais tokens que o Opus 4.6 devido a um tokenizador atualizado, o que pode aumentar os custos em cerca de 40% apesar do preço idêntico.

Sistema de engenharia portátil para Claude Code com ganchos, agentes especializados e autoaperfeiçoamento
Um desenvolvedor criou um sistema de engenharia portátil que reside em ~/.claude/ e se aplica automaticamente a todos os projetos, apresentando uma constituição de 650 linhas, ganchos determinísticos que bloqueiam comandos perigosos, três agentes especializados e uma abordagem de engenharia composta que se aprimora sozinha.