Voxray-AI: Продуктовая Go-бэкенд платформа для пайплайнов голосовых агентов в реальном времени

Конвейер голосового агента производственного уровня на Go
Voxray-AI предоставляет полный потоковый конвейер на Go, который обрабатывает аудио клиента через WebSocket или WebRTC, пропускает его через STT → LLM → TTS и возвращает аудиовыход. Система предназначена для серверов производственного уровня и голосовых нагрузок с высокой параллельностью.
Варианты транспорта
Система поддерживает несколько механизмов транспорта:
- WebSocket по адресу
/wsс поддержкой сериализатора RTVI (?rtvi=1) и Protobuf (?format=protobuf) - WebRTC по адресу
/webrtc/offerс полным SDP offer/answer, настраиваемыми STUN/TURN и кодированием Opus (требует сборки с CGO) - Транспорты для телефонии: Twilio, Telnyx, Plivo, Exotel, LiveKit, Daily.co
Сменные провайдеры
Все компоненты можно заменять через конфигурацию:
- Провайдеры STT: OpenAI, Groq, Sarvam, Google, AWS
- Провайдеры LLM: OpenAI, Anthropic, Groq, другие
- Провайдеры TTS: OpenAI, Google, AWS Polly, Sarvam
Примеры конфигурации
Минимальный пример конфигурации:
{"transport": "both", "stt": { "provider": "groq", "model": "whisper-large-v3" }, "llm": { "provider": "anthropic", "model": "claude-3-5-haiku" }, "tts": { "provider": "google", "voice": "en-US-Neural2-F" }}Конфигурация определения очереди и детекции голосовой активности:
{"turn_detection": "silence", "vad_type": "silero", "vad_confidence": 0.7, "vad_start_secs_vad": 0.2, "vad_stop_secs": 0.8, "turn_max_duration_secs": 30, "user_idle_timeout_secs": 60}Наблюдаемость и хранение
- Эндпоинт
/metricsдля Prometheus (счётчики запросов, гистограммы задержек, датчики активных соединений) - Запись: Полное аудио сессии в S3 с настраиваемым пулом воркеров и форматом
- Транскрипты: Хранение каждого сообщения в Postgres или MySQL с настраиваемой таблицей
- Эндпоинты
/healthи/readyс опциональной проверкой хранилища сессий Redis на/ready
Функции безопасности
server_api_keyзащищает/ws,/webrtc/offer,/start,/sessions/*черезAuthorization: BearerилиX-API-Key- Конфигурация белого списка CORS
- Конфигурация сертификата и ключа TLS
- Стиль 12-factor: JSON-конфигурация + переопределения переменных окружения
Такой бэкенд полезен разработчикам, создающим голосовые приложения реального времени, которым необходимо интегрировать несколько AI-сервисов с инфраструктурой, готовой к промышленной эксплуатации.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Sandbox0: Открытая инфраструктура песочницы на основе Kubernetes для ИИ-агентов
Sandbox0 — это инфраструктура песочницы с открытым исходным кодом для ИИ-агентов, построенная на Kubernetes с постоянным хранилищем через JuiceFS и автоматическим масштабированием. Она решает такие ограничения существующих решений, как лимиты на параллельное выполнение и эфемерное исполнение.

Автоматизируйте проверку PR на GitHub с помощью агентов Claude Code
Разработчик создал агента, который обрабатывает упоминания в GitHub, запускает работников Claude Code для проверки или исправления PR и передает человеку только неоднозначные случаи.

Best-Backup: Бесплатный инструмент для резервного копирования сервера OpenClaw и контейнеров Docker
Бесплатный инструмент best-backup предоставляет надёжные возможности резервного копирования для серверов OpenClaw, включая полное резервное копирование серверов, копирование определённых папок и резервное копирование контейнеров Docker, с такими функциями, как сжатие, шифрование с использованием существующих SSH-ключей и интеграция с Google Drive.

AgentPVP: Агент-ориентированная соревновательная арена LLM с ELO, соперничеством и песочницей для инъекций промптов
AgentPVP позволяет агентам LLM регистрироваться, играть в 5 настольных игр через JSON API, вести рейтинг ELO для каждой игры, вести файлы соперничества и подшучивать друг над другом в общем чате. HTML опционален — API и есть сайт.