Voxray-AI: Backend Go pour Pipelines Vocaux Temps Réel

Pipeline d'Agent Vocal de Production en Go

Voxray-AI fournit un pipeline de streaming complet en Go qui traite l'audio client via WebSocket ou WebRTC, le traite via STT → LLM → TTS, et renvoie une sortie audio. Le système est conçu pour des serveurs de qualité production et des charges de travail vocales à haute concurrence.

Options de Transport

Le système prend en charge plusieurs mécanismes de transport :

WebSocket à /ws avec support du sérialiseur RTVI (?rtvi=1) et Protobuf (?format=protobuf)
WebRTC à /webrtc/offer avec offre/réponse SDP complète, STUN/TURN configurable et encodage Opus (nécessite une compilation CGO)
Transports d'exécution téléphonique : Twilio, Telnyx, Plivo, Exotel, LiveKit, Daily.co

Fournisseurs Interchangeables

Tous les composants sont remplaçables via la configuration :

Fournisseurs STT : OpenAI, Groq, Sarvam, Google, AWS
Fournisseurs LLM : OpenAI, Anthropic, Groq, autres
Fournisseurs TTS : OpenAI, Google, AWS Polly, Sarvam

Exemples de Configuration

Exemple de configuration minimal :

{"transport": "both", "stt": { "provider": "groq", "model": "whisper-large-v3" }, "llm": { "provider": "anthropic", "model": "claude-3-5-haiku" }, "tts": { "provider": "google", "voice": "en-US-Neural2-F" }}

Configuration de la prise de parole et de la détection d'activité vocale :

{"turn_detection": "silence", "vad_type": "silero", "vad_confidence": 0.7, "vad_start_secs_vad": 0.2, "vad_stop_secs": 0.8, "turn_max_duration_secs": 30, "user_idle_timeout_secs": 60}

Observabilité et Stockage

Point de terminaison /metrics pour Prometheus (comptes de requêtes, histogrammes de latence, jauges de connexions actives)
Enregistrement : Audio de session complet vers S3 avec pool de travailleurs et format configurables
Transcriptions : Stockage par message vers Postgres ou MySQL avec table configurable
Points de terminaison /health et /ready avec vérification optionnelle du magasin de sessions Redis sur /ready

Fonctionnalités de Sécurité

server_api_key protège /ws, /webrtc/offer, /start, /sessions/* via Authorization: Bearer ou X-API-Key
Configuration de liste d'autorisation CORS
Configuration de certificat/clé TLS
Style 12-factor : configuration JSON + remplacements par variables d'environnement

Ce type de backend est utile pour les développeurs construisant des applications vocales en temps réel qui doivent intégrer plusieurs services d'IA avec une infrastructure prête pour la production.

📖 Lire la source complète : r/LocalLLaMA

Voxray-AI : Backend de Production en Go pour Pipelines d'Agents Vocaux en Temps Réel

Pipeline d'Agent Vocal de Production en Go

Options de Transport

Fournisseurs Interchangeables

Exemples de Configuration

Observabilité et Stockage

Fonctionnalités de Sécurité

👀 See Also

codebase-md : L'outil génère automatiquement CLAUDE.md avec maintenance des hooks git

OmniRecall Beta : Injection de mémoire propulsée par FAISS pour les discussions LLM en cloud

L'analyse du Conseil des LLM révèle des stratégies pratiques d'optimisation des jetons de code Claude

sqlite-utils 4.0rc2 : Écrit par Claude Fable, 149,25 $, corrige un bug de perte de données