TranscriptionSuite v1.1.2: WhisperX, NeMo, VibeVoice

Выпуск TranscriptionSuite v1.1.2

TranscriptionSuite, полностью локальное и открытое приложение для транскрипции аудио, выпустило версию 1.1.2 с важными дополнениями функций на основе отзывов сообщества.

Ключевые обновления

Разработчик заменил предыдущую реализацию faster-whisper на WhisperX и добавил поддержку нескольких новых семейств моделей:

WhisperX - включает диаризацию через PyAnnote
Модели NeMo - поддержка моделей Parakeet и Canary с диаризацией через PyAnnote
Модели VibeVoice - поддержка как основной модели, так и 4-битных квантованных версий со встроенной диаризацией

Новые функции

Менеджер моделей - централизованное управление различными моделями транскрипции
Режим параллельной обработки - одновременная транскрипция и диаризация
Управление горячими клавишами - сочетания клавиш для улучшения рабочего процесса
Вставка в позицию курсора - функция прямой вставки текста
Конвейер записи 24 кГц - специально добавлен для полного использования возможностей моделей VibeVoice (модели Whisper и NeMo требуют 16 кГц)

Приложение теперь предоставляет три различных конвейера транскрипции, каждый с разными подходами к диаризации в зависимости от выбранного семейства моделей.

📖 Read the full source: r/LocalLLaMA

TranscriptionSuite v1.1.2 добавляет модели WhisperX, NeMo и VibeVoice.

Выпуск TranscriptionSuite v1.1.2

Ключевые обновления

Новые функции

👀 Смотрите также

Реляционная память для LLM: Трехуровневая система моделирует взаимоотношения с пользователем

Сандра: MCP с открытым исходным кодом для постоянной памяти графов в Клод

Пользователь Reddit измеряет накладные расходы токенов MCP: 67 тысяч токенов потреблено ещё до постановки вопроса.

Фреймворк AutoAgents на Rust добавляет привязки к Python для прототипирования