Voxray-AI: Produktions-Backend in Go für Echtzeit-Sprachagenten-Pipelines

Produktionsreife Sprachagenten-Pipeline in Go
Voxray-AI bietet eine vollständige Streaming-Pipeline in Go, die Client-Audio über WebSocket oder WebRTC verarbeitet, es durch STT → LLM → TTS leitet und Audioausgaben zurückgibt. Das System ist für produktionsreife Server und hochgradig parallele Sprachworkloads konzipiert.
Transportoptionen
Das System unterstützt mehrere Transportmechanismen:
- WebSocket unter
/wsmit RTVI-Serialisierer (?rtvi=1) und Protobuf-Unterstützung (?format=protobuf) - WebRTC unter
/webrtc/offermit vollständigem SDP-Angebot/Antwort, konfigurierbarem STUN/TURN und Opus-Kodierung (erfordert CGO-Build) - Telefonie-Transporte: Twilio, Telnyx, Plivo, Exotel, LiveKit, Daily.co
Plug-and-Play-Anbieter
Alle Komponenten sind über Konfiguration austauschbar:
- STT-Anbieter: OpenAI, Groq, Sarvam, Google, AWS
- LLM-Anbieter: OpenAI, Anthropic, Groq, andere
- TTS-Anbieter: OpenAI, Google, AWS Polly, Sarvam
Konfigurationsbeispiele
Minimales Konfigurationsbeispiel:
{"transport": "both", "stt": { "provider": "groq", "model": "whisper-large-v3" }, "llm": { "provider": "anthropic", "model": "claude-3-5-haiku" }, "tts": { "provider": "google", "voice": "en-US-Neural2-F" }}Konfiguration für Sprecherwechsel und Spracherkennung:
{"turn_detection": "silence", "vad_type": "silero", "vad_confidence": 0.7, "vad_start_secs_vad": 0.2, "vad_stop_secs": 0.8, "turn_max_duration_secs": 30, "user_idle_timeout_secs": 60}Beobachtbarkeit & Speicherung
/metrics-Endpunkt für Prometheus (Anfragezahlen, Latenzhistogramme, aktive Verbindungszähler)- Aufzeichnung: Vollständige Sitzungsaudio in S3 mit konfigurierbarem Worker-Pool und Format
- Transkripte: Pro-Nachricht-Speicherung in Postgres oder MySQL mit konfigurierbarer Tabelle
/health- und/ready-Endpunkte mit optionaler Redis-Sitzungsspeicherprüfung bei/ready
Sicherheitsfunktionen
server_api_keyschützt/ws,/webrtc/offer,/start,/sessions/*überAuthorization: BeareroderX-API-Key- CORS-Allowlist-Konfiguration
- TLS-Zertifikat/Schlüssel-Konfiguration
- 12-Faktor-Stil: JSON-Konfiguration + Umgebungsvariablen-Überschreibungen
Diese Art von Backend ist nützlich für Entwickler, die Echtzeit-Sprachanwendungen erstellen, die mehrere KI-Dienste mit produktionsreifer Infrastruktur integrieren müssen.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Detrix MCP Server fügt KI-Coding-Agenten Laufzeit-Debugging hinzu
Detrix ist ein kostenloser, quelloffener MCP-Server, der MCP-kompatiblen Agenten ermöglicht, Live-Variablen in laufendem Code zu beobachten, ohne Neustarts oder Codeänderungen. Er unterstützt Python-, Go- und Rust-Anwendungen, die lokal oder in Docker laufen.

Throttle Meter: Open-Source Claude Code-Nutzungszähler für macOS
Open-Source macOS-Menüleisten-App, die lokale Claude Code-Logs liest, um Echtzeit-Nutzung der letzten 5 Stunden und wöchentliche Nutzung mit Schwellenwertbenachrichtigungen und Token-sparenden Hooks anzuzeigen. Hat auch einen €19 kommerziellen Ableger mit Exact-Modus (liest claude.ais interne API über Safari).

Claude Codes dateibasiertes Speichersystem: Eine pragmatische Alternative zu Vektor-Datenbanken
Claude Code implementiert ein dateibasiertes Speichersystem, das .md-Dateien mit Frontmatter-Metadaten und einer MEMORY.md-Indexdatei verwendet. Es vermeidet Vektordatenbanken und Embedding-Pipelines, indem es Dateien scannt, Manifeste erstellt und ein kleines Modell zur Auswahl relevanter Erinnerungen nutzt.

OpenClaw Context Meter Plugin zeigt Telegram Token-Nutzungsprozentsatz an
Ein neues OpenClaw-Plugin zeigt den Token-Verbrauchsprozentsatz nach jeder Telegram-Bot-Antwort an, mit Werten wie '45k / 200k (22%)' und erkennt Komprimierungsereignisse. Das Plugin vermeidet OOM-Probleme, indem es Kontextfenster hartcodiert, anstatt execSync zu verwenden.