Voxray-AI : Backend de Production en Go pour Pipelines d'Agents Vocaux en Temps Réel

Pipeline d'Agent Vocal de Production en Go
Voxray-AI fournit un pipeline de streaming complet en Go qui traite l'audio client via WebSocket ou WebRTC, le traite via STT → LLM → TTS, et renvoie une sortie audio. Le système est conçu pour des serveurs de qualité production et des charges de travail vocales à haute concurrence.
Options de Transport
Le système prend en charge plusieurs mécanismes de transport :
- WebSocket à
/wsavec support du sérialiseur RTVI (?rtvi=1) et Protobuf (?format=protobuf) - WebRTC à
/webrtc/offeravec offre/réponse SDP complète, STUN/TURN configurable et encodage Opus (nécessite une compilation CGO) - Transports d'exécution téléphonique : Twilio, Telnyx, Plivo, Exotel, LiveKit, Daily.co
Fournisseurs Interchangeables
Tous les composants sont remplaçables via la configuration :
- Fournisseurs STT : OpenAI, Groq, Sarvam, Google, AWS
- Fournisseurs LLM : OpenAI, Anthropic, Groq, autres
- Fournisseurs TTS : OpenAI, Google, AWS Polly, Sarvam
Exemples de Configuration
Exemple de configuration minimal :
{"transport": "both", "stt": { "provider": "groq", "model": "whisper-large-v3" }, "llm": { "provider": "anthropic", "model": "claude-3-5-haiku" }, "tts": { "provider": "google", "voice": "en-US-Neural2-F" }}Configuration de la prise de parole et de la détection d'activité vocale :
{"turn_detection": "silence", "vad_type": "silero", "vad_confidence": 0.7, "vad_start_secs_vad": 0.2, "vad_stop_secs": 0.8, "turn_max_duration_secs": 30, "user_idle_timeout_secs": 60}Observabilité et Stockage
- Point de terminaison
/metricspour Prometheus (comptes de requêtes, histogrammes de latence, jauges de connexions actives) - Enregistrement : Audio de session complet vers S3 avec pool de travailleurs et format configurables
- Transcriptions : Stockage par message vers Postgres ou MySQL avec table configurable
- Points de terminaison
/healthet/readyavec vérification optionnelle du magasin de sessions Redis sur/ready
Fonctionnalités de Sécurité
server_api_keyprotège/ws,/webrtc/offer,/start,/sessions/*viaAuthorization: BearerouX-API-Key- Configuration de liste d'autorisation CORS
- Configuration de certificat/clé TLS
- Style 12-factor : configuration JSON + remplacements par variables d'environnement
Ce type de backend est utile pour les développeurs construisant des applications vocales en temps réel qui doivent intégrer plusieurs services d'IA avec une infrastructure prête pour la production.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

GlycemicGPT : Moniteur de diabète IA auto-hébergé avec BYOAI et SDK de plugins
GlycemicGPT est une plateforme open-source auto-hébergée qui relie les capteurs Dexcom G7 et les pompes Tandem à une couche d'analyse IA. Elle fournit des résumés quotidiens, des analyses de repas, un chat conversationnel et des alertes configurables, le tout sur votre propre matériel.

Construire un Agent Vocal en Moins de 500 ms : Architecture et Perspectives de Performance
Un développeur a créé un agent vocal à partir de zéro, atteignant une latence de bout en bout d'environ 400 ms avec un flux complet STT → LLM → TTS. Les idées clés incluent le traitement de la voix comme un problème de prise de tour, l'utilisation d'une détection sémantique de fin de tour et la colocalisation de tous les composants pour une latence minimale.

Résultats de PinchBench : Premier Benchmark Spécifique aux Agents d'IA de Codage OpenClaw
Le premier benchmark spécifique à OpenClaw, PinchBench, classe 32 modèles d'IA selon leur taux de réussite, leur coût et leur vitesse, avec Gemini-3-Flash-Preview de Google en tête avec 95,1 % de réussite pour 0,72 $.

Claude Code Routines : Planifiez des tâches d'agent comme Cron avec raisonnement
Les routines Claude Code vous permettent d'exécuter des tâches d'agent selon un calendrier sans garder une session ouverte. Un utilisateur de Reddit partage des exemples concrets : révision des commits chaque nuit, vérification hebdomadaire des dépendances, analyse quotidienne des journaux d'erreurs — avec raisonnement IA au lieu d'un simple script en sortie brute.