Voxray-AI: 실시간 음성 에이전트 파이프라인을 위한 프로덕션 Go 백엔드

✍️ OpenClawRadar📅 게시일: March 10, 2026🔗 Source
Voxray-AI: 실시간 음성 에이전트 파이프라인을 위한 프로덕션 Go 백엔드
Ad

Go 기반 프로덕션 음성 에이전트 파이프라인

Voxray-AI는 WebSocket 또는 WebRTC를 통해 클라이언트 오디오를 처리하고 STT → LLM → TTS를 거쳐 오디오 출력을 반환하는 Go의 완전한 스트리밍 파이프라인을 제공합니다. 이 시스템은 프로덕션 등급 서버와 높은 동시성 음성 워크로드를 위해 설계되었습니다.

전송 옵션

시스템은 여러 전송 메커니즘을 지원합니다:

  • WebSocket - /ws에서 RTVI 직렬화기(?rtvi=1) 및 Protobuf(?format=protobuf) 지원
  • WebRTC - /webrtc/offer에서 완전한 SDP 오퍼/응답, 구성 가능한 STUN/TURN, Opus 인코딩 지원(CGO 빌드 필요)
  • 전화 통신 러너 전송: Twilio, Telnyx, Plivo, Exotel, LiveKit, Daily.co

플러그형 제공업체

모든 구성 요소는 설정을 통해 교체 가능합니다:

  • STT 제공업체: OpenAI, Groq, Sarvam, Google, AWS
  • LLM 제공업체: OpenAI, Anthropic, Groq, 기타
  • TTS 제공업체: OpenAI, Google, AWS Polly, Sarvam

설정 예시

최소 설정 예시:

{"transport": "both", "stt": { "provider": "groq", "model": "whisper-large-v3" }, "llm": { "provider": "anthropic", "model": "claude-3-5-haiku" }, "tts": { "provider": "google", "voice": "en-US-Neural2-F" }}

턴 전환 및 음성 활동 감지 설정:

{"turn_detection": "silence", "vad_type": "silero", "vad_confidence": 0.7, "vad_start_secs_vad": 0.2, "vad_stop_secs": 0.8, "turn_max_duration_secs": 30, "user_idle_timeout_secs": 60}
Ad

관측 가능성 및 저장소

  • /metrics 엔드포인트 - Prometheus용(요청 수, 지연 시간 히스토그램, 활성 연결 게이지)
  • 녹음: 구성 가능한 작업자 풀 및 형식으로 S3에 전체 세션 오디오 저장
  • 대본: 구성 가능한 테이블로 Postgres 또는 MySQL에 메시지별 저장
  • /health/ready 엔드포인트 - /ready에서 선택적 Redis 세션 저장소 확인 포함

보안 기능

  • server_api_key - Authorization: Bearer 또는 X-API-Key를 통해 /ws, /webrtc/offer, /start, /sessions/* 접근 제어
  • CORS 허용 목록 구성
  • TLS 인증서/키 구성
  • 12-factor 스타일: JSON 설정 + 환경 변수 재정의

이러한 유형의 백엔드는 프로덕션 준비 인프라와 함께 여러 AI 서비스를 통합해야 하는 실시간 음성 애플리케이션을 구축하는 개발자에게 유용합니다.

📖 전체 소스 읽기: r/LocalLLaMA

Ad

👀 See Also

HolyCode: 지속적인 AI 코딩 에이전트 환경을 위한 Docker 컨테이너
Tools

HolyCode: 지속적인 AI 코딩 에이전트 환경을 위한 Docker 컨테이너

HolyCode는 AI 코딩 에이전트를 위한 지속적인 개발 환경을 제공하는 Docker 컨테이너로, 재구축 시에도 세션, 설정, 플러그인을 유지합니다. 에이전트 워크플로우를 위해 사전 구성된 브라우저 도구를 포함하며, OpenCode를 통해 Claude, OpenAI, Gemini 및 기타 제공업체를 지원합니다.

OpenClawRadar
OpenClaw-WebTop: GitHub Codespaces에서 Ollama와 Ubuntu Desktop으로 OpenClaw 실행하기
Tools

OpenClaw-WebTop: GitHub Codespaces에서 Ollama와 Ubuntu Desktop으로 OpenClaw 실행하기

OpenClaw-WebTop은 GitHub Codespaces를 사용하여 브라우저에서 직접 Ollama와 Ubuntu MATE 데스크톱이 포함된 완전한 OpenClaw 인스턴스를 실행하는 방법을 제공합니다. 로컬 Docker 설치나 VPS가 필요하지 않습니다.

OpenClawRadar
클로드 코드로 구축된 클로드 사용량 표시줄 색상 변경 브라우저 확장 프로그램
Tools

클로드 코드로 구축된 클로드 사용량 표시줄 색상 변경 브라우저 확장 프로그램

한 개발자가 사용량 백분율 임계값에 따라 Claude의 사용량 막대를 녹색에서 노란색, 빨간색으로 재색칠하고, 실시간 사용량 데이터 팝업을 추가하며, 임계값과 색상을 사용자 정의할 수 있는 브라우저 확장 프로그램을 만들었습니다. 이 확장 프로그램은 Claude의 사용량 페이지에서만 실행되며, 설정을 로컬에 저장하고 외부 네트워크 요청을 하지 않습니다.

OpenClawRadar
릴레이: 클로드 코드 세션을 다른 AI 에이전트로 넘겨주는 도구
Tools

릴레이: 클로드 코드 세션을 다른 AI 에이전트로 넘겨주는 도구

Relay는 Claude Code의 세션 컨텍스트(대화 기록, 도구 호출, 오류, git 상태 포함)를 추출하여 속도 제한에 도달했을 때 Codex나 Gemini 같은 다른 AI 에이전트로 전송하는 Rust 바이너리입니다. 8개의 에이전트를 지원하며 GitHub나 npm을 통해 설치할 수 있습니다.

OpenClawRadar