Разработчик достиг задержки менее секунды для STT/TTS с локальными серверами Whisper и Coqui-TTS.

✍️ OpenClawRadar📅 Опубликовано: 13 апреля 2026 г.🔗 Source
Разработчик достиг задержки менее секунды для STT/TTS с локальными серверами Whisper и Coqui-TTS.
Ad

Разработчик поделился реализациями серверов с открытым исходным кодом, которые обеспечивают задержку менее секунды для преобразования речи в текст и текста в речь в локальных ИИ-агентах, устраняя разговорную задержку, обычно связанную с облачными решениями.

Показатели производительности

Реализация обеспечивает:

  • ~0,2 секунды задержки для преобразования речи в текст (STT)
  • ~250 мс задержки для преобразования текста в речь (TTS)

Это представляет собой значительное улучшение по сравнению с упомянутым ранее узким местом в 2-3 секунды ожидания.

Техническая реализация

Сервер STT

  • Создан с использованием Whisper large-v3-turbo
  • Пользовательская реализация моста
  • Гибридная архитектура с управлением потоками GPU для параллельной обработки без перегрузки видеопамяти

Сервер TTS

  • Использует Coqui-TTS, работающий на локальном сервере
  • API, совместимый с OpenAI
  • Оптимизирован для синтеза с низкой задержкой
  • Включает клонированный голос Пола Беттани/Джарвиса
Ad

Требования к оборудованию

  • Выделенный узел с GPU NVIDIA RTX
  • Ускорение на GPU обязательно для достижения таких скоростей

Компоненты с открытым исходным кодом

Разработчик опубликовал два репозитория на GitHub:

Они включают реализации серверов и скрипты интеграции OpenClaw для создания локальных агентов.

Результаты

Агент теперь демонстрирует по-настоящему разговорное поведение с:

  • Правильной обработкой прерываний
  • Почти мгновенными ответами
  • Нулевой передачей аудиоданных внешним API

Разработчик готов ответить на вопросы о настройке сервера, управлении видеопамятью и интеграции в другие ИИ-проекты.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Spectr: MCP, который пишет спецификации приложений на основе записей экрана для пиксельно точных клонов Claude
Инструменты

Spectr: MCP, который пишет спецификации приложений на основе записей экрана для пиксельно точных клонов Claude

Spectr — это MCP-сервер, CLI и навык для Claude Code, который принимает .mp4/.mov запись экрана iOS-приложения и генерирует spec.md с семью разделами: hex-коды, вес шрифта, отступы, переходы и навигационный граф — устраняя необходимость в 30-минутном ручном написании спецификации для каждого экрана.

OpenClawRadar
Локальный семантический поиск для AI-диалогов с использованием fastembed и LanceDB
Инструменты

Локальный семантический поиск для AI-диалогов с использованием fastembed и LanceDB

Разработчик проиндексировал 368 тысяч сообщений из диалогов с ИИ локально, используя fastembed для эмбеддингов на CPU и LanceDB в качестве бессерверного векторного хранилища, достигнув 12 мс p50 задержки поиска без API-ключей.

OpenClawRadar
JetBrains представляет плагин для современного Go-кода с AI-агентами Junie и Claude Code.
Инструменты

JetBrains представляет плагин для современного Go-кода с AI-агентами Junie и Claude Code.

JetBrains выпустила плагин для AI-агентов Junie и Claude Code, улучшив их способность генерировать современный код на Go, соответствующий последним функциям и лучшим практикам языка.

OpenClawRadar
Монитор безопасности среды выполнения InsAIts для Claude Code достиг 8 000 загрузок в PyPI.
Инструменты

Монитор безопасности среды выполнения InsAIts для Claude Code достиг 8 000 загрузок в PyPI.

InsAIts, монитор безопасности во время выполнения для сессий агента Claude Code, достиг 8 140 общих загрузок на PyPI. Версия 3.4.0 добавляет Адаптивный менеджер контекста, многоуровневую систему инъекции якорей и улучшения панели управления.

OpenClawRadar