VibeVoice : modèles ASR 60 min et TTS 90 min open-source

Microsoft a rendu open-source VibeVoice, une famille de modèles de voix IA de pointe couvrant à la fois l'ASR et le TTS. Le modèle ASR (VibeVoice-ASR-7B) traite jusqu'à 60 minutes d'audio long dans un seul passage (fenêtre de 64K tokens), produisant des transcriptions structurées avec identification du locuteur, horodatage et texte — prenant en charge plus de 50 langues. Il prend également en charge des mots-clés personnalisés pour des termes spécifiques au domaine. Le modèle TTS (VibeVoice-TTS-1.5B) peut synthétiser jusqu'à 90 minutes de parole multi-locuteurs (jusqu'à 4 locuteurs). Une variante en temps réel (VibeVoice-Realtime-0.5B) prend en charge la saisie de texte en continu et la génération longue avec des voix multilingues (9 langues) et 11 voix de style anglais.

Détails techniques clés

Innovation centrale : Tokenizers de parole continus (acoustique et sémantique) à une fréquence d'images ultra-basse de 7,5 Hz, préservant la fidélité audio tout en améliorant l'efficacité informatique pour les longues séquences.
Architecture : Cadre de diffusion de prochain token — un LLM gère le contexte textuel et le flux de dialogue, une tête de diffusion génère des détails acoustiques de haute fidélité.
Capacités ASR : Audio unique de 60 minutes, ASR + diarisation + horodatage conjoints (Qui, Quand, Quoi), mots-clés personnalisables.
Capacités TTS : Synthèse longue de 90 minutes avec jusqu'à 4 locuteurs distincts ; streaming en temps réel via VibeVoice-Realtime-0.5B.
Accélération d'inférence : Inférence vLLM prise en charge (voir vllm-asr).
Finetuning : Le code de finetuning ASR est disponible.
Intégration Hugging Face : VibeVoice-ASR fait désormais partie de la version Transformers (2026-03-06).

Liens rapides :

Modèle ASR : Lien HF | Playground
Modèle TTS : Lien HF (code désactivé)
TTS en temps réel : Lien HF | Colab

Note : Le code VibeVoice-TTS a été retiré du dépôt (2025-09-05) en raison de problèmes d'utilisation abusive, mais les codes ASR et TTS en temps réel restent actifs.

📖 Lire la source complète : HN AI Agents

Microsoft VibeVoice : modèles ASR de 60 min et TTS de 90 min open-sourcés

Détails techniques clés

👀 See Also

Le serveur MCP en mode contexte réduit l'utilisation du contexte de code Claude de 98 %

AutoBe : Comment des LLM locaux faibles ont corrigé l'architecture d'un générateur de backend IA

Développeur construit un serveur MCP connectant 18 outils e-commerce à Claude

Memento Vault : Outil Local pour un Contexte Persistant dans les Sessions Code Claude