Voxray-AI : Backend de Production en Go pour Pipelines d'Agents Vocaux en Temps Réel

✍️ OpenClawRadar📅 Publié: March 10, 2026🔗 Source
Voxray-AI : Backend de Production en Go pour Pipelines d'Agents Vocaux en Temps Réel
Ad

Pipeline d'Agent Vocal de Production en Go

Voxray-AI fournit un pipeline de streaming complet en Go qui traite l'audio client via WebSocket ou WebRTC, le traite via STT → LLM → TTS, et renvoie une sortie audio. Le système est conçu pour des serveurs de qualité production et des charges de travail vocales à haute concurrence.

Options de Transport

Le système prend en charge plusieurs mécanismes de transport :

  • WebSocket à /ws avec support du sérialiseur RTVI (?rtvi=1) et Protobuf (?format=protobuf)
  • WebRTC à /webrtc/offer avec offre/réponse SDP complète, STUN/TURN configurable et encodage Opus (nécessite une compilation CGO)
  • Transports d'exécution téléphonique : Twilio, Telnyx, Plivo, Exotel, LiveKit, Daily.co

Fournisseurs Interchangeables

Tous les composants sont remplaçables via la configuration :

  • Fournisseurs STT : OpenAI, Groq, Sarvam, Google, AWS
  • Fournisseurs LLM : OpenAI, Anthropic, Groq, autres
  • Fournisseurs TTS : OpenAI, Google, AWS Polly, Sarvam

Exemples de Configuration

Exemple de configuration minimal :

{"transport": "both", "stt": { "provider": "groq", "model": "whisper-large-v3" }, "llm": { "provider": "anthropic", "model": "claude-3-5-haiku" }, "tts": { "provider": "google", "voice": "en-US-Neural2-F" }}

Configuration de la prise de parole et de la détection d'activité vocale :

{"turn_detection": "silence", "vad_type": "silero", "vad_confidence": 0.7, "vad_start_secs_vad": 0.2, "vad_stop_secs": 0.8, "turn_max_duration_secs": 30, "user_idle_timeout_secs": 60}
Ad

Observabilité et Stockage

  • Point de terminaison /metrics pour Prometheus (comptes de requêtes, histogrammes de latence, jauges de connexions actives)
  • Enregistrement : Audio de session complet vers S3 avec pool de travailleurs et format configurables
  • Transcriptions : Stockage par message vers Postgres ou MySQL avec table configurable
  • Points de terminaison /health et /ready avec vérification optionnelle du magasin de sessions Redis sur /ready

Fonctionnalités de Sécurité

  • server_api_key protège /ws, /webrtc/offer, /start, /sessions/* via Authorization: Bearer ou X-API-Key
  • Configuration de liste d'autorisation CORS
  • Configuration de certificat/clé TLS
  • Style 12-factor : configuration JSON + remplacements par variables d'environnement

Ce type de backend est utile pour les développeurs construisant des applications vocales en temps réel qui doivent intégrer plusieurs services d'IA avec une infrastructure prête pour la production.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

GlycemicGPT : Moniteur de diabète IA auto-hébergé avec BYOAI et SDK de plugins
Tools

GlycemicGPT : Moniteur de diabète IA auto-hébergé avec BYOAI et SDK de plugins

GlycemicGPT est une plateforme open-source auto-hébergée qui relie les capteurs Dexcom G7 et les pompes Tandem à une couche d'analyse IA. Elle fournit des résumés quotidiens, des analyses de repas, un chat conversationnel et des alertes configurables, le tout sur votre propre matériel.

OpenClawRadar
Construire un Agent Vocal en Moins de 500 ms : Architecture et Perspectives de Performance
Tools

Construire un Agent Vocal en Moins de 500 ms : Architecture et Perspectives de Performance

Un développeur a créé un agent vocal à partir de zéro, atteignant une latence de bout en bout d'environ 400 ms avec un flux complet STT → LLM → TTS. Les idées clés incluent le traitement de la voix comme un problème de prise de tour, l'utilisation d'une détection sémantique de fin de tour et la colocalisation de tous les composants pour une latence minimale.

OpenClawRadar
Résultats de PinchBench : Premier Benchmark Spécifique aux Agents d'IA de Codage OpenClaw
Tools

Résultats de PinchBench : Premier Benchmark Spécifique aux Agents d'IA de Codage OpenClaw

Le premier benchmark spécifique à OpenClaw, PinchBench, classe 32 modèles d'IA selon leur taux de réussite, leur coût et leur vitesse, avec Gemini-3-Flash-Preview de Google en tête avec 95,1 % de réussite pour 0,72 $.

OpenClawRadar
Claude Code Routines : Planifiez des tâches d'agent comme Cron avec raisonnement
Tools

Claude Code Routines : Planifiez des tâches d'agent comme Cron avec raisonnement

Les routines Claude Code vous permettent d'exécuter des tâches d'agent selon un calendrier sans garder une session ouverte. Un utilisateur de Reddit partage des exemples concrets : révision des commits chaque nuit, vérification hebdomadaire des dépendances, analyse quotidienne des journaux d'erreurs — avec raisonnement IA au lieu d'un simple script en sortie brute.

OpenClawRadar