Voxray-AI: Go-Backend für Echtzeit-Sprachagenten-Pipelines

Produktionsreife Sprachagenten-Pipeline in Go

Voxray-AI bietet eine vollständige Streaming-Pipeline in Go, die Client-Audio über WebSocket oder WebRTC verarbeitet, es durch STT → LLM → TTS leitet und Audioausgaben zurückgibt. Das System ist für produktionsreife Server und hochgradig parallele Sprachworkloads konzipiert.

Transportoptionen

Das System unterstützt mehrere Transportmechanismen:

WebSocket unter /ws mit RTVI-Serialisierer (?rtvi=1) und Protobuf-Unterstützung (?format=protobuf)
WebRTC unter /webrtc/offer mit vollständigem SDP-Angebot/Antwort, konfigurierbarem STUN/TURN und Opus-Kodierung (erfordert CGO-Build)
Telefonie-Transporte: Twilio, Telnyx, Plivo, Exotel, LiveKit, Daily.co

Plug-and-Play-Anbieter

Alle Komponenten sind über Konfiguration austauschbar:

STT-Anbieter: OpenAI, Groq, Sarvam, Google, AWS
LLM-Anbieter: OpenAI, Anthropic, Groq, andere
TTS-Anbieter: OpenAI, Google, AWS Polly, Sarvam

Konfigurationsbeispiele

Minimales Konfigurationsbeispiel:

{"transport": "both", "stt": { "provider": "groq", "model": "whisper-large-v3" }, "llm": { "provider": "anthropic", "model": "claude-3-5-haiku" }, "tts": { "provider": "google", "voice": "en-US-Neural2-F" }}

Konfiguration für Sprecherwechsel und Spracherkennung:

{"turn_detection": "silence", "vad_type": "silero", "vad_confidence": 0.7, "vad_start_secs_vad": 0.2, "vad_stop_secs": 0.8, "turn_max_duration_secs": 30, "user_idle_timeout_secs": 60}

Beobachtbarkeit & Speicherung

/metrics-Endpunkt für Prometheus (Anfragezahlen, Latenzhistogramme, aktive Verbindungszähler)
Aufzeichnung: Vollständige Sitzungsaudio in S3 mit konfigurierbarem Worker-Pool und Format
Transkripte: Pro-Nachricht-Speicherung in Postgres oder MySQL mit konfigurierbarer Tabelle
/health- und /ready-Endpunkte mit optionaler Redis-Sitzungsspeicherprüfung bei /ready

Sicherheitsfunktionen

server_api_key schützt /ws, /webrtc/offer, /start, /sessions/* über Authorization: Bearer oder X-API-Key
CORS-Allowlist-Konfiguration
TLS-Zertifikat/Schlüssel-Konfiguration
12-Faktor-Stil: JSON-Konfiguration + Umgebungsvariablen-Überschreibungen

Diese Art von Backend ist nützlich für Entwickler, die Echtzeit-Sprachanwendungen erstellen, die mehrere KI-Dienste mit produktionsreifer Infrastruktur integrieren müssen.

📖 Read the full source: r/LocalLLaMA