Voxray-AI: Produktions-Backend in Go für Echtzeit-Sprachagenten-Pipelines

✍️ OpenClawRadar📅 Veröffentlicht: 10. März 2026🔗 Source
Voxray-AI: Produktions-Backend in Go für Echtzeit-Sprachagenten-Pipelines
Ad

Produktionsreife Sprachagenten-Pipeline in Go

Voxray-AI bietet eine vollständige Streaming-Pipeline in Go, die Client-Audio über WebSocket oder WebRTC verarbeitet, es durch STT → LLM → TTS leitet und Audioausgaben zurückgibt. Das System ist für produktionsreife Server und hochgradig parallele Sprachworkloads konzipiert.

Transportoptionen

Das System unterstützt mehrere Transportmechanismen:

  • WebSocket unter /ws mit RTVI-Serialisierer (?rtvi=1) und Protobuf-Unterstützung (?format=protobuf)
  • WebRTC unter /webrtc/offer mit vollständigem SDP-Angebot/Antwort, konfigurierbarem STUN/TURN und Opus-Kodierung (erfordert CGO-Build)
  • Telefonie-Transporte: Twilio, Telnyx, Plivo, Exotel, LiveKit, Daily.co

Plug-and-Play-Anbieter

Alle Komponenten sind über Konfiguration austauschbar:

  • STT-Anbieter: OpenAI, Groq, Sarvam, Google, AWS
  • LLM-Anbieter: OpenAI, Anthropic, Groq, andere
  • TTS-Anbieter: OpenAI, Google, AWS Polly, Sarvam

Konfigurationsbeispiele

Minimales Konfigurationsbeispiel:

{"transport": "both", "stt": { "provider": "groq", "model": "whisper-large-v3" }, "llm": { "provider": "anthropic", "model": "claude-3-5-haiku" }, "tts": { "provider": "google", "voice": "en-US-Neural2-F" }}

Konfiguration für Sprecherwechsel und Spracherkennung:

{"turn_detection": "silence", "vad_type": "silero", "vad_confidence": 0.7, "vad_start_secs_vad": 0.2, "vad_stop_secs": 0.8, "turn_max_duration_secs": 30, "user_idle_timeout_secs": 60}
Ad

Beobachtbarkeit & Speicherung

  • /metrics-Endpunkt für Prometheus (Anfragezahlen, Latenzhistogramme, aktive Verbindungszähler)
  • Aufzeichnung: Vollständige Sitzungsaudio in S3 mit konfigurierbarem Worker-Pool und Format
  • Transkripte: Pro-Nachricht-Speicherung in Postgres oder MySQL mit konfigurierbarer Tabelle
  • /health- und /ready-Endpunkte mit optionaler Redis-Sitzungsspeicherprüfung bei /ready

Sicherheitsfunktionen

  • server_api_key schützt /ws, /webrtc/offer, /start, /sessions/* über Authorization: Bearer oder X-API-Key
  • CORS-Allowlist-Konfiguration
  • TLS-Zertifikat/Schlüssel-Konfiguration
  • 12-Faktor-Stil: JSON-Konfiguration + Umgebungsvariablen-Überschreibungen

Diese Art von Backend ist nützlich für Entwickler, die Echtzeit-Sprachanwendungen erstellen, die mehrere KI-Dienste mit produktionsreifer Infrastruktur integrieren müssen.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Open-Source Claude-Fähigkeiten für Produktmanager: PRD-Generator, User Stories, Meeting-Notizen
Werkzeuge

Open-Source Claude-Fähigkeiten für Produktmanager: PRD-Generator, User Stories, Meeting-Notizen

Ein Entwickler hat fünf kostenlose Claude AI-Fähigkeiten für Produktmanager veröffentlicht, die formatierte .docx-Dateien für PRDs, User Stories, Meeting-Synthesen, Marktforschung und Stakeholder-Updates generieren. Die Tools vermeiden halluzinierte Inhalte und nutzen strukturierte Vorlagen.

OpenClawRadar
Hände an bei Tenvents Modell: Stark für agentische Workflows, schwach für komplexes Coding
Werkzeuge

Hände an bei Tenvents Modell: Stark für agentische Workflows, schwach für komplexes Coding

Tencents Modell erhält 8/10 für agentische Aufgaben mit geringen Halluzinationsraten, versagt jedoch bei komplexem Code wie Notion-API-Schemas. Für Backend-Logik vermeiden.

OpenClawRadar
Einführung von cltree: Ein Dateibaum-TUI für Claude-Code
Werkzeuge

Einführung von cltree: Ein Dateibaum-TUI für Claude-Code

<strong>cltree</strong> ist eine Split-Pane Terminalbenutzeroberfläche (TUI), die entwickelt wurde, um neben Claude Code zu laufen. Sie löst die Herausforderung, Projektstrukturen in Echtzeit anzuzeigen, während Claude Code im Terminal verwendet wird.

OpenClawRadar
Kontextgesteuertes Lernsystem für Claude Code fungiert als dauerhafter Tutor
Werkzeuge

Kontextgesteuertes Lernsystem für Claude Code fungiert als dauerhafter Tutor

Ein Entwickler hat ein Lernsystem mit Claude Code erstellt, das den Fortschritt über Sitzungen hinweg verfolgt, das Verständnis prüft, Übungen durcharbeitet und sich an Lernstile anpasst. Das System verwendet strukturierte Markdown-Dateien, um das Verhalten des Agenten zu steuern, und enthält Tools zum Extrahieren von Lehrbuchseiten aus PDFs.

OpenClawRadar