Задержка STT/TTS <1 сек: локальные Whisper и Coqui

Разработчик поделился реализациями серверов с открытым исходным кодом, которые обеспечивают задержку менее секунды для преобразования речи в текст и текста в речь в локальных ИИ-агентах, устраняя разговорную задержку, обычно связанную с облачными решениями.

Показатели производительности

Реализация обеспечивает:

~0,2 секунды задержки для преобразования речи в текст (STT)
~250 мс задержки для преобразования текста в речь (TTS)

Это представляет собой значительное улучшение по сравнению с упомянутым ранее узким местом в 2-3 секунды ожидания.

Техническая реализация

Сервер STT

Создан с использованием Whisper large-v3-turbo
Пользовательская реализация моста
Гибридная архитектура с управлением потоками GPU для параллельной обработки без перегрузки видеопамяти

Сервер TTS

Использует Coqui-TTS, работающий на локальном сервере
API, совместимый с OpenAI
Оптимизирован для синтеза с низкой задержкой
Включает клонированный голос Пола Беттани/Джарвиса

Требования к оборудованию

Выделенный узел с GPU NVIDIA RTX
Ускорение на GPU обязательно для достижения таких скоростей

Компоненты с открытым исходным кодом

Разработчик опубликовал два репозитория на GitHub:

Они включают реализации серверов и скрипты интеграции OpenClaw для создания локальных агентов.

Результаты

Агент теперь демонстрирует по-настоящему разговорное поведение с:

Правильной обработкой прерываний
Почти мгновенными ответами
Нулевой передачей аудиоданных внешним API

Разработчик готов ответить на вопросы о настройке сервера, управлении видеопамятью и интеграции в другие ИИ-проекты.

📖 Read the full source: r/LocalLLaMA

Разработчик достиг задержки менее секунды для STT/TTS с локальными серверами Whisper и Coqui-TTS.

Показатели производительности

Техническая реализация

Сервер STT

Сервер TTS

Требования к оборудованию

Компоненты с открытым исходным кодом

Результаты

👀 Смотрите также

LAP: Собрано более 1500 спецификаций API для использования в LLM с целью снижения галлюцинаций у Claude

Шесть репозиториев GitHub для разработки кода с Claude

InsForge: Открытая бэкенд-платформа для ИИ-агентов программирования

BaseLayer: Открытый Конвейер Поведенческого Сжатия для Систем Памяти ИИ