Разработчик достиг задержки менее секунды для STT/TTS с локальными серверами Whisper и Coqui-TTS.

Разработчик поделился реализациями серверов с открытым исходным кодом, которые обеспечивают задержку менее секунды для преобразования речи в текст и текста в речь в локальных ИИ-агентах, устраняя разговорную задержку, обычно связанную с облачными решениями.
Показатели производительности
Реализация обеспечивает:
- ~0,2 секунды задержки для преобразования речи в текст (STT)
- ~250 мс задержки для преобразования текста в речь (TTS)
Это представляет собой значительное улучшение по сравнению с упомянутым ранее узким местом в 2-3 секунды ожидания.
Техническая реализация
Сервер STT
- Создан с использованием Whisper large-v3-turbo
- Пользовательская реализация моста
- Гибридная архитектура с управлением потоками GPU для параллельной обработки без перегрузки видеопамяти
Сервер TTS
- Использует Coqui-TTS, работающий на локальном сервере
- API, совместимый с OpenAI
- Оптимизирован для синтеза с низкой задержкой
- Включает клонированный голос Пола Беттани/Джарвиса
Требования к оборудованию
- Выделенный узел с GPU NVIDIA RTX
- Ускорение на GPU обязательно для достижения таких скоростей
Компоненты с открытым исходным кодом
Разработчик опубликовал два репозитория на GitHub:
Они включают реализации серверов и скрипты интеграции OpenClaw для создания локальных агентов.
Результаты
Агент теперь демонстрирует по-настоящему разговорное поведение с:
- Правильной обработкой прерываний
- Почти мгновенными ответами
- Нулевой передачей аудиоданных внешним API
Разработчик готов ответить на вопросы о настройке сервера, управлении видеопамятью и интеграции в другие ИИ-проекты.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Spectr: MCP, который пишет спецификации приложений на основе записей экрана для пиксельно точных клонов Claude
Spectr — это MCP-сервер, CLI и навык для Claude Code, который принимает .mp4/.mov запись экрана iOS-приложения и генерирует spec.md с семью разделами: hex-коды, вес шрифта, отступы, переходы и навигационный граф — устраняя необходимость в 30-минутном ручном написании спецификации для каждого экрана.

Локальный семантический поиск для AI-диалогов с использованием fastembed и LanceDB
Разработчик проиндексировал 368 тысяч сообщений из диалогов с ИИ локально, используя fastembed для эмбеддингов на CPU и LanceDB в качестве бессерверного векторного хранилища, достигнув 12 мс p50 задержки поиска без API-ключей.

JetBrains представляет плагин для современного Go-кода с AI-агентами Junie и Claude Code.
JetBrains выпустила плагин для AI-агентов Junie и Claude Code, улучшив их способность генерировать современный код на Go, соответствующий последним функциям и лучшим практикам языка.

Монитор безопасности среды выполнения InsAIts для Claude Code достиг 8 000 загрузок в PyPI.
InsAIts, монитор безопасности во время выполнения для сессий агента Claude Code, достиг 8 140 общих загрузок на PyPI. Версия 3.4.0 добавляет Адаптивный менеджер контекста, многоуровневую систему инъекции якорей и улучшения панели управления.