Voxray-AI: Produktions-Backend in Go für Echtzeit-Sprachagenten-Pipelines

Produktionsreife Sprachagenten-Pipeline in Go
Voxray-AI bietet eine vollständige Streaming-Pipeline in Go, die Client-Audio über WebSocket oder WebRTC verarbeitet, es durch STT → LLM → TTS leitet und Audioausgaben zurückgibt. Das System ist für produktionsreife Server und hochgradig parallele Sprachworkloads konzipiert.
Transportoptionen
Das System unterstützt mehrere Transportmechanismen:
- WebSocket unter
/wsmit RTVI-Serialisierer (?rtvi=1) und Protobuf-Unterstützung (?format=protobuf) - WebRTC unter
/webrtc/offermit vollständigem SDP-Angebot/Antwort, konfigurierbarem STUN/TURN und Opus-Kodierung (erfordert CGO-Build) - Telefonie-Transporte: Twilio, Telnyx, Plivo, Exotel, LiveKit, Daily.co
Plug-and-Play-Anbieter
Alle Komponenten sind über Konfiguration austauschbar:
- STT-Anbieter: OpenAI, Groq, Sarvam, Google, AWS
- LLM-Anbieter: OpenAI, Anthropic, Groq, andere
- TTS-Anbieter: OpenAI, Google, AWS Polly, Sarvam
Konfigurationsbeispiele
Minimales Konfigurationsbeispiel:
{"transport": "both", "stt": { "provider": "groq", "model": "whisper-large-v3" }, "llm": { "provider": "anthropic", "model": "claude-3-5-haiku" }, "tts": { "provider": "google", "voice": "en-US-Neural2-F" }}Konfiguration für Sprecherwechsel und Spracherkennung:
{"turn_detection": "silence", "vad_type": "silero", "vad_confidence": 0.7, "vad_start_secs_vad": 0.2, "vad_stop_secs": 0.8, "turn_max_duration_secs": 30, "user_idle_timeout_secs": 60}Beobachtbarkeit & Speicherung
/metrics-Endpunkt für Prometheus (Anfragezahlen, Latenzhistogramme, aktive Verbindungszähler)- Aufzeichnung: Vollständige Sitzungsaudio in S3 mit konfigurierbarem Worker-Pool und Format
- Transkripte: Pro-Nachricht-Speicherung in Postgres oder MySQL mit konfigurierbarer Tabelle
/health- und/ready-Endpunkte mit optionaler Redis-Sitzungsspeicherprüfung bei/ready
Sicherheitsfunktionen
server_api_keyschützt/ws,/webrtc/offer,/start,/sessions/*überAuthorization: BeareroderX-API-Key- CORS-Allowlist-Konfiguration
- TLS-Zertifikat/Schlüssel-Konfiguration
- 12-Faktor-Stil: JSON-Konfiguration + Umgebungsvariablen-Überschreibungen
Diese Art von Backend ist nützlich für Entwickler, die Echtzeit-Sprachanwendungen erstellen, die mehrere KI-Dienste mit produktionsreifer Infrastruktur integrieren müssen.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Open-Source Claude-Fähigkeiten für Produktmanager: PRD-Generator, User Stories, Meeting-Notizen
Ein Entwickler hat fünf kostenlose Claude AI-Fähigkeiten für Produktmanager veröffentlicht, die formatierte .docx-Dateien für PRDs, User Stories, Meeting-Synthesen, Marktforschung und Stakeholder-Updates generieren. Die Tools vermeiden halluzinierte Inhalte und nutzen strukturierte Vorlagen.

Hände an bei Tenvents Modell: Stark für agentische Workflows, schwach für komplexes Coding
Tencents Modell erhält 8/10 für agentische Aufgaben mit geringen Halluzinationsraten, versagt jedoch bei komplexem Code wie Notion-API-Schemas. Für Backend-Logik vermeiden.

Einführung von cltree: Ein Dateibaum-TUI für Claude-Code
<strong>cltree</strong> ist eine Split-Pane Terminalbenutzeroberfläche (TUI), die entwickelt wurde, um neben Claude Code zu laufen. Sie löst die Herausforderung, Projektstrukturen in Echtzeit anzuzeigen, während Claude Code im Terminal verwendet wird.

Kontextgesteuertes Lernsystem für Claude Code fungiert als dauerhafter Tutor
Ein Entwickler hat ein Lernsystem mit Claude Code erstellt, das den Fortschritt über Sitzungen hinweg verfolgt, das Verständnis prüft, Übungen durcharbeitet und sich an Lernstile anpasst. Das System verwendet strukturierte Markdown-Dateien, um das Verhalten des Agenten zu steuern, und enthält Tools zum Extrahieren von Lehrbuchseiten aus PDFs.