Разработчик достиг задержки менее секунды для STT/TTS с локальными серверами Whisper и Coqui-TTS.

Разработчик поделился реализациями серверов с открытым исходным кодом, которые обеспечивают задержку менее секунды для преобразования речи в текст и текста в речь в локальных ИИ-агентах, устраняя разговорную задержку, обычно связанную с облачными решениями.
Показатели производительности
Реализация обеспечивает:
- ~0,2 секунды задержки для преобразования речи в текст (STT)
- ~250 мс задержки для преобразования текста в речь (TTS)
Это представляет собой значительное улучшение по сравнению с упомянутым ранее узким местом в 2-3 секунды ожидания.
Техническая реализация
Сервер STT
- Создан с использованием Whisper large-v3-turbo
- Пользовательская реализация моста
- Гибридная архитектура с управлением потоками GPU для параллельной обработки без перегрузки видеопамяти
Сервер TTS
- Использует Coqui-TTS, работающий на локальном сервере
- API, совместимый с OpenAI
- Оптимизирован для синтеза с низкой задержкой
- Включает клонированный голос Пола Беттани/Джарвиса
Требования к оборудованию
- Выделенный узел с GPU NVIDIA RTX
- Ускорение на GPU обязательно для достижения таких скоростей
Компоненты с открытым исходным кодом
Разработчик опубликовал два репозитория на GitHub:
Они включают реализации серверов и скрипты интеграции OpenClaw для создания локальных агентов.
Результаты
Агент теперь демонстрирует по-настоящему разговорное поведение с:
- Правильной обработкой прерываний
- Почти мгновенными ответами
- Нулевой передачей аудиоданных внешним API
Разработчик готов ответить на вопросы о настройке сервера, управлении видеопамятью и интеграции в другие ИИ-проекты.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Перевод на русский: **Браузерная обвязка: предоставление LLM прямого доступа к CDP для самокоррекции браузерных задач**
Browser Harness снимает обёртки браузерных фреймворков, предоставляя LLM прямой доступ к CDP websocket и позволяя им писать недостающие инструменты прямо во время выполнения задачи. Демонстрируется самоизобретением функции upload_file().

ddash: Инструмент для создания диаграмм Mermaid с URL-хранилищем и интеграцией кода Claude
ddash — это бесплатный инструмент для создания диаграмм Mermaid, где вся диаграмма сжимается в хэш URL, не требуя бэкенда, аккаунтов или хранилища. Он включает навык Claude Code, который позволяет генерировать и открывать диаграммы прямо во время разговоров с помощью команд вроде /diagram the auth flow.

Результаты тестирования: 6 бюджетных моделей против Claude Sonnet 4.6 в задаче оркестрации OpenClaw
Разработчик протестировал шесть более дешёвых ИИ-моделей против Claude Sonnet 4.6 в качестве основного оркестратора для настройки OpenClaw. Только o4-mini повторил идеальный результат Sonnet, в то время как другие провалились на критически важных задачах, требующих суждения, таких как проверка файлов и делегирование.

Инструмент Skills Creator для OpenClaw помогает разработчикам упаковывать рабочие процессы.
Разработчик создал навык под названием skills-creator, который помогает пользователям создавать качественные навыки для OpenClaw, решая распространённые проблемы, такие как расплывчатые описания и инструкции, похожие на документацию. Он доступен на ClawHub и предлагает подход, ориентированный на дизайн, с формулами описаний, контрольными списками и уровнями сложности.