Voxray-AI: リアルタイム音声エージェントパイプライン用Goバックエンド

Goでの本番環境向け音声エージェントパイプライン

Voxray-AIは、Goで完全なストリーミングパイプラインを提供し、WebSocketまたはWebRTCを介してクライアントの音声を処理し、STT → LLM → TTSを通じて処理し、音声出力を返します。このシステムは、本番環境レベルのサーバーと高並列音声ワークロード向けに設計されています。

トランスポートオプション

システムは複数のトランスポートメカニズムをサポートしています：

WebSocket：/wsでRTVIシリアライザー（?rtvi=1）とProtobuf（?format=protobuf）をサポート
WebRTC：/webrtc/offerで完全なSDPオファー/アンサー、設定可能なSTUN/TURN、Opusエンコーディングをサポート（CGOビルドが必要）
電話ランナートランスポート：Twilio、Telnyx、Plivo、Exotel、LiveKit、Daily.co

プラグ可能なプロバイダー

すべてのコンポーネントは設定を通じて交換可能です：

STTプロバイダー：OpenAI、Groq、Sarvam、Google、AWS
LLMプロバイダー：OpenAI、Anthropic、Groq、その他
TTSプロバイダー：OpenAI、Google、AWS Polly、Sarvam

設定例

最小限の設定例：

{"transport": "both", "stt": { "provider": "groq", "model": "whisper-large-v3" }, "llm": { "provider": "anthropic", "model": "claude-3-5-haiku" }, "tts": { "provider": "google", "voice": "en-US-Neural2-F" }}

話者交替と音声活動検出の設定：

{"turn_detection": "silence", "vad_type": "silero", "vad_confidence": 0.7, "vad_start_secs_vad": 0.2, "vad_stop_secs": 0.8, "turn_max_duration_secs": 30, "user_idle_timeout_secs": 60}

可観測性とストレージ

/metricsエンドポイントでPrometheus対応（リクエスト数、レイテンシーヒストグラム、アクティブ接続ゲージ）
録音：設定可能なワーカープールとフォーマットでS3への完全セッション音声保存
トランスクリプト：設定可能なテーブルでPostgresまたはMySQLへのメッセージごとの保存
/healthと/readyエンドポイント、/readyではオプションのRedisセッションストアチェック

セキュリティ機能

server_api_keyがAuthorization: BearerまたはX-API-Keyを介して/ws、/webrtc/offer、/start、/sessions/*を制御
CORS許可リスト設定
TLS証明書/鍵設定
12-factorスタイル：JSON設定 + 環境変数による上書き

この種のバックエンドは、複数のAIサービスを本番環境対応のインフラストラクチャと統合する必要があるリアルタイム音声アプリケーションを構築する開発者に役立ちます。

📖 完全なソースを読む： r/LocalLLaMA