Microsoft VibeVoice: ASR модели на 60 минут и TTS модели на 90 минут с открытым исходным кодом

✍️ OpenClawRadar📅 Опубликовано: 28 апреля 2026 г.🔗 Source
Microsoft VibeVoice: ASR модели на 60 минут и TTS модели на 90 минут с открытым исходным кодом
Ad

Microsoft открыла исходный код VibeVoice, семейства передовых голосовых AI-моделей, охватывающих как ASR, так и TTS. Модель ASR (VibeVoice-ASR-7B) обрабатывает до 60 минут длинного аудио за один проход (окно в 64K токенов), выводя структурированные транскрипции с идентификатором диктора, временными метками и текстом — поддерживается более 50 языков. Также поддерживаются пользовательские хотворды для терминов из конкретных доменов. Модель TTS (VibeVoice-TTS-1.5B) может синтезировать до 90 минут мультиспикерной речи (до 4 дикторов). Вариант для реального времени (VibeVoice-Realtime-0.5B) поддерживает потоковый ввод текста и генерацию длинных текстов с мультиязычными голосами (9 языков) и 11 английскими стилевыми голосами.

Ad

Ключевые технические детали

  • Основное новшество: Непрерывные токенизаторы речи (акустический и семантический) с ультранизкой частотой кадров 7,5 Гц, сохраняющие точность аудио и повышающие вычислительную эффективность для длинных последовательностей.
  • Архитектура: Фреймворк диффузии следующего токена — LLM обрабатывает текстовый контекст и диалоговый поток, а диффузионная голова генерирует высокоточные акустические детали.
  • Возможности ASR: Однопроходная обработка аудио до 60 минут, совместный ASR + диаризация + временные метки (Кто, Когда, Что), настраиваемые хотворды.
  • Возможности TTS: Синтез длинных текстов до 90 минут с до 4 различными дикторами; потоковый режим реального времени через VibeVoice-Realtime-0.5B.
  • Ускорение инференса: Поддерживается инференс через vLLM (см. vllm-asr).
  • Дообучение: Доступен код для дообучения ASR.
  • Интеграция с Hugging Face: VibeVoice-ASR теперь часть релиза Transformers (2026-03-06).

Быстрые ссылки:

Примечание: Код VibeVoice-TTS был удалён из репозитория (2025-09-05) из-за опасений по поводу неправомерного использования, но код ASR и TTS реального времени остаются активными.

📖 Прочитайте полный источник: HN AI Agents

Ad

👀 Смотрите также

OpenEvol: Потоковая система автономного самосовершенствования для больших языковых моделей с использованием истории диалога
Инструменты

OpenEvol: Потоковая система автономного самосовершенствования для больших языковых моделей с использованием истории диалога

OpenEvol v0.1.1 — это автономный конвейер, который автоматически анализирует историю диалогов ИИ для создания наборов данных для тонкой настройки без ручной разметки. Изначально работает на CPU и поддерживает пять бэкендов-учителей, включая API, совместимые с OpenAI, и HuggingFace Transformers.

OpenClawRadar
ClankerRank: Бенчмарк для оценки навыков программирования с помощью ИИ на основе Claude Haiku
Инструменты

ClankerRank: Бенчмарк для оценки навыков программирования с помощью ИИ на основе Claude Haiku

Разработчик создал ClankerRank для оценки навыков программирования с помощью ИИ, используя модель Claude Haiku 4.5. Платформа предлагает пользователям одинаковые баги, оценивает результаты с помощью скрытых тестов и выявила явные различия в навыках среди сотен участников.

OpenClawRadar
Claude Code Limiter: Самостоятельно размещаемый ограничитель скорости для общих подписок Claude Code
Инструменты

Claude Code Limiter: Самостоятельно размещаемый ограничитель скорости для общих подписок Claude Code

claude-code-limiter — это инструмент для самостоятельного хостинга, который добавляет ограничения по использованию на каждого пользователя для общих подписок Claude Code, включая квоты по моделям, кредитные бюджеты, скользящие 24-часовые окна, правила по времени суток и панель управления в реальном времени.

OpenClawRadar
Локальный менеджер проектов в стиле Trello для агентов OpenClaw, использующий файлы в формате markdown.
Инструменты

Локальный менеджер проектов в стиле Trello для агентов OpenClaw, использующий файлы в формате markdown.

Разработчик создал локальную доску Trello для управления проектами с помощью агентов OpenClaw, используя Node.js + Express для API, React + react-trello для интерфейса и файлы markdown с YAML frontmatter в качестве уровня данных. Система работает на машине OpenClaw и доступна локально, при этом агенты читают/записывают файлы карточек напрямую в файловой системе.

OpenClawRadar