Microsoft VibeVoice: ASR модели на 60 минут и TTS модели на 90 минут с открытым исходным кодом

Microsoft открыла исходный код VibeVoice, семейства передовых голосовых AI-моделей, охватывающих как ASR, так и TTS. Модель ASR (VibeVoice-ASR-7B) обрабатывает до 60 минут длинного аудио за один проход (окно в 64K токенов), выводя структурированные транскрипции с идентификатором диктора, временными метками и текстом — поддерживается более 50 языков. Также поддерживаются пользовательские хотворды для терминов из конкретных доменов. Модель TTS (VibeVoice-TTS-1.5B) может синтезировать до 90 минут мультиспикерной речи (до 4 дикторов). Вариант для реального времени (VibeVoice-Realtime-0.5B) поддерживает потоковый ввод текста и генерацию длинных текстов с мультиязычными голосами (9 языков) и 11 английскими стилевыми голосами.
Ключевые технические детали
- Основное новшество: Непрерывные токенизаторы речи (акустический и семантический) с ультранизкой частотой кадров 7,5 Гц, сохраняющие точность аудио и повышающие вычислительную эффективность для длинных последовательностей.
- Архитектура: Фреймворк диффузии следующего токена — LLM обрабатывает текстовый контекст и диалоговый поток, а диффузионная голова генерирует высокоточные акустические детали.
- Возможности ASR: Однопроходная обработка аудио до 60 минут, совместный ASR + диаризация + временные метки (Кто, Когда, Что), настраиваемые хотворды.
- Возможности TTS: Синтез длинных текстов до 90 минут с до 4 различными дикторами; потоковый режим реального времени через VibeVoice-Realtime-0.5B.
- Ускорение инференса: Поддерживается инференс через vLLM (см.
vllm-asr). - Дообучение: Доступен код для дообучения ASR.
- Интеграция с Hugging Face: VibeVoice-ASR теперь часть релиза Transformers (2026-03-06).
Быстрые ссылки:
- Модель ASR: HF Link | Playground
- Модель TTS: HF Link (код отключен)
- Realtime TTS: HF Link | Colab
Примечание: Код VibeVoice-TTS был удалён из репозитория (2025-09-05) из-за опасений по поводу неправомерного использования, но код ASR и TTS реального времени остаются активными.
📖 Прочитайте полный источник: HN AI Agents
👀 Смотрите также

OpenEvol: Потоковая система автономного самосовершенствования для больших языковых моделей с использованием истории диалога
OpenEvol v0.1.1 — это автономный конвейер, который автоматически анализирует историю диалогов ИИ для создания наборов данных для тонкой настройки без ручной разметки. Изначально работает на CPU и поддерживает пять бэкендов-учителей, включая API, совместимые с OpenAI, и HuggingFace Transformers.

ClankerRank: Бенчмарк для оценки навыков программирования с помощью ИИ на основе Claude Haiku
Разработчик создал ClankerRank для оценки навыков программирования с помощью ИИ, используя модель Claude Haiku 4.5. Платформа предлагает пользователям одинаковые баги, оценивает результаты с помощью скрытых тестов и выявила явные различия в навыках среди сотен участников.

Claude Code Limiter: Самостоятельно размещаемый ограничитель скорости для общих подписок Claude Code
claude-code-limiter — это инструмент для самостоятельного хостинга, который добавляет ограничения по использованию на каждого пользователя для общих подписок Claude Code, включая квоты по моделям, кредитные бюджеты, скользящие 24-часовые окна, правила по времени суток и панель управления в реальном времени.

Локальный менеджер проектов в стиле Trello для агентов OpenClaw, использующий файлы в формате markdown.
Разработчик создал локальную доску Trello для управления проектами с помощью агентов OpenClaw, используя Node.js + Express для API, React + react-trello для интерфейса и файлы markdown с YAML frontmatter в качестве уровня данных. Система работает на машине OpenClaw и доступна локально, при этом агенты читают/записывают файлы карточек напрямую в файловой системе.