Microsoft VibeVoice : modèles ASR de 60 min et TTS de 90 min open-sourcés

✍️ OpenClawRadar📅 Publié: April 28, 2026🔗 Source
Microsoft VibeVoice : modèles ASR de 60 min et TTS de 90 min open-sourcés
Ad

Microsoft a rendu open-source VibeVoice, une famille de modèles de voix IA de pointe couvrant à la fois l'ASR et le TTS. Le modèle ASR (VibeVoice-ASR-7B) traite jusqu'à 60 minutes d'audio long dans un seul passage (fenêtre de 64K tokens), produisant des transcriptions structurées avec identification du locuteur, horodatage et texte — prenant en charge plus de 50 langues. Il prend également en charge des mots-clés personnalisés pour des termes spécifiques au domaine. Le modèle TTS (VibeVoice-TTS-1.5B) peut synthétiser jusqu'à 90 minutes de parole multi-locuteurs (jusqu'à 4 locuteurs). Une variante en temps réel (VibeVoice-Realtime-0.5B) prend en charge la saisie de texte en continu et la génération longue avec des voix multilingues (9 langues) et 11 voix de style anglais.

Ad

Détails techniques clés

  • Innovation centrale : Tokenizers de parole continus (acoustique et sémantique) à une fréquence d'images ultra-basse de 7,5 Hz, préservant la fidélité audio tout en améliorant l'efficacité informatique pour les longues séquences.
  • Architecture : Cadre de diffusion de prochain token — un LLM gère le contexte textuel et le flux de dialogue, une tête de diffusion génère des détails acoustiques de haute fidélité.
  • Capacités ASR : Audio unique de 60 minutes, ASR + diarisation + horodatage conjoints (Qui, Quand, Quoi), mots-clés personnalisables.
  • Capacités TTS : Synthèse longue de 90 minutes avec jusqu'à 4 locuteurs distincts ; streaming en temps réel via VibeVoice-Realtime-0.5B.
  • Accélération d'inférence : Inférence vLLM prise en charge (voir vllm-asr).
  • Finetuning : Le code de finetuning ASR est disponible.
  • Intégration Hugging Face : VibeVoice-ASR fait désormais partie de la version Transformers (2026-03-06).

Liens rapides :

Note : Le code VibeVoice-TTS a été retiré du dépôt (2025-09-05) en raison de problèmes d'utilisation abusive, mais les codes ASR et TTS en temps réel restent actifs.

📖 Lire la source complète : HN AI Agents

Ad

👀 See Also

Le serveur MCP Gmail open-source ajoute la prise en charge multi-comptes et l'accès en écriture.
Tools

Le serveur MCP Gmail open-source ajoute la prise en charge multi-comptes et l'accès en écriture.

Un serveur MCP open-source permet à Claude AI de se connecter à plusieurs comptes Gmail avec des capacités complètes de lecture et d'écriture, incluant l'archivage, l'étiquetage et une fonctionnalité de désabonnement automatique. Il prend en charge la syntaxe de recherche Gmail et peut être déployé sur Railway en 5 minutes ou auto-hébergé.

OpenClawRadar
Pneuma : Un environnement de bureau généré par IA où les logiciels se matérialisent à partir de descriptions
Tools

Pneuma : Un environnement de bureau généré par IA où les logiciels se matérialisent à partir de descriptions

Pneuma est un environnement informatique de bureau où vous décrivez ce que vous voulez—un moniteur de CPU, un jeu, une application de notes ou un visualiseur de données—et un programme fonctionnel se matérialise en quelques secondes. Le système génère des modules Rust autonomes, les compile en WebAssembly et les exécute dans des instances Wasmtime isolées avec rendu GPU via wgpu.

OpenClawRadar
L'Approche de Cursor pour une Recherche Rapide d'Expressions Régulières pour les Agents IA
Tools

L'Approche de Cursor pour une Recherche Rapide d'Expressions Régulières pour les Agents IA

Cursor développe une recherche d'expressions régulières indexée pour résoudre les problèmes de performance dans les monorepos de grande taille où ripgrep peut prendre plus de 15 secondes, en utilisant des index inversés avec des n-grammes basés sur des recherches de 1993 par Zobel, Moffat et Sacks-Davis.

OpenClawRadar
Le benchmark MemAware montre que la mémoire des agents basés sur RAG échoue lors de la récupération de contexte implicite.
Tools

Le benchmark MemAware montre que la mémoire des agents basés sur RAG échoue lors de la récupération de contexte implicite.

Le benchmark MemAware évalue si les agents IA peuvent rappeler un contexte passé pertinent lorsque les utilisateurs ne le demandent pas explicitement, révélant que les systèmes de mémoire actuels n'atteignent que 2,8 % de précision sur les requêtes implicites difficiles, contre 0,8 % sans mémoire.

OpenClawRadar