Voxray-AI: リアルタイム音声エージェントパイプライン向け本番用Goバックエンド

Goでの本番環境向け音声エージェントパイプライン
Voxray-AIは、Goで完全なストリーミングパイプラインを提供し、WebSocketまたはWebRTCを介してクライアントの音声を処理し、STT → LLM → TTSを通じて処理し、音声出力を返します。このシステムは、本番環境レベルのサーバーと高並列音声ワークロード向けに設計されています。
トランスポートオプション
システムは複数のトランスポートメカニズムをサポートしています:
- WebSocket:
/wsでRTVIシリアライザー(?rtvi=1)とProtobuf(?format=protobuf)をサポート - WebRTC:
/webrtc/offerで完全なSDPオファー/アンサー、設定可能なSTUN/TURN、Opusエンコーディングをサポート(CGOビルドが必要) - 電話ランナートランスポート:Twilio、Telnyx、Plivo、Exotel、LiveKit、Daily.co
プラグ可能なプロバイダー
すべてのコンポーネントは設定を通じて交換可能です:
- STTプロバイダー:OpenAI、Groq、Sarvam、Google、AWS
- LLMプロバイダー:OpenAI、Anthropic、Groq、その他
- TTSプロバイダー:OpenAI、Google、AWS Polly、Sarvam
設定例
最小限の設定例:
{"transport": "both", "stt": { "provider": "groq", "model": "whisper-large-v3" }, "llm": { "provider": "anthropic", "model": "claude-3-5-haiku" }, "tts": { "provider": "google", "voice": "en-US-Neural2-F" }}話者交替と音声活動検出の設定:
{"turn_detection": "silence", "vad_type": "silero", "vad_confidence": 0.7, "vad_start_secs_vad": 0.2, "vad_stop_secs": 0.8, "turn_max_duration_secs": 30, "user_idle_timeout_secs": 60}可観測性とストレージ
/metricsエンドポイントでPrometheus対応(リクエスト数、レイテンシーヒストグラム、アクティブ接続ゲージ)- 録音:設定可能なワーカープールとフォーマットでS3への完全セッション音声保存
- トランスクリプト:設定可能なテーブルでPostgresまたはMySQLへのメッセージごとの保存
/healthと/readyエンドポイント、/readyではオプションのRedisセッションストアチェック
セキュリティ機能
server_api_keyがAuthorization: BearerまたはX-API-Keyを介して/ws、/webrtc/offer、/start、/sessions/*を制御- CORS許可リスト設定
- TLS証明書/鍵設定
- 12-factorスタイル:JSON設定 + 環境変数による上書き
この種のバックエンドは、複数のAIサービスを本番環境対応のインフラストラクチャと統合する必要があるリアルタイム音声アプリケーションを構築する開発者に役立ちます。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

スロットルメーター:macOS向けオープンソースのClaude Code使用量メーター
オープンソースのmacOSメニューバーアプリ。ローカルのClaude Codeログを読み取り、リアルタイムの5時間および週間使用量を表示し、しきい値通知とトークン節約フックを提供します。Safari経由でclaude.aiの内部APIを読み取るExactモードを備えた19ユーロの商用版もあります。

オープンソースフレームワークがClaude Code CLIを使用してGitHubリポジトリの自動監視を実現
開発者が、複数のリポジトリにわたるGitHubアクティビティを定期的に監視するためにClaude Code CLIをcronスケジュールで実行するフレームワークをオープンソース化しました。このツールには状態追跡、重複排除、Discord通知、および変更がない場合にAPIコストを回避する事前チェックシステムが含まれています。
CTOP: Claude Codeセッションを監視するターミナルUI、依存関係ゼロ
CTOP は依存関係ゼロの Node.js TUI で、実行中のすべての Claude Code および Codex セッションの CPU、メモリ、コンテキストウィンドウの飽和度、トークン内訳、コスト見積もりを表示します。

OpenClaw Alexa Voice Proxyは双方向音声インタラクションを可能にします
openclaw-alexa-voiceは、AlexaカスタムスキルをOpenClawゲートウェイに接続するNode.jsプロキシで、音声クエリに対して3段階の応答システムを実装しています。1秒未満の高速応答、12秒未満のエージェント応答、2分以内に非同期処理される遅延複雑クエリを処理します。