Microsoft VibeVoice : modèles ASR de 60 min et TTS de 90 min open-sourcés

Microsoft a rendu open-source VibeVoice, une famille de modèles de voix IA de pointe couvrant à la fois l'ASR et le TTS. Le modèle ASR (VibeVoice-ASR-7B) traite jusqu'à 60 minutes d'audio long dans un seul passage (fenêtre de 64K tokens), produisant des transcriptions structurées avec identification du locuteur, horodatage et texte — prenant en charge plus de 50 langues. Il prend également en charge des mots-clés personnalisés pour des termes spécifiques au domaine. Le modèle TTS (VibeVoice-TTS-1.5B) peut synthétiser jusqu'à 90 minutes de parole multi-locuteurs (jusqu'à 4 locuteurs). Une variante en temps réel (VibeVoice-Realtime-0.5B) prend en charge la saisie de texte en continu et la génération longue avec des voix multilingues (9 langues) et 11 voix de style anglais.
Détails techniques clés
- Innovation centrale : Tokenizers de parole continus (acoustique et sémantique) à une fréquence d'images ultra-basse de 7,5 Hz, préservant la fidélité audio tout en améliorant l'efficacité informatique pour les longues séquences.
- Architecture : Cadre de diffusion de prochain token — un LLM gère le contexte textuel et le flux de dialogue, une tête de diffusion génère des détails acoustiques de haute fidélité.
- Capacités ASR : Audio unique de 60 minutes, ASR + diarisation + horodatage conjoints (Qui, Quand, Quoi), mots-clés personnalisables.
- Capacités TTS : Synthèse longue de 90 minutes avec jusqu'à 4 locuteurs distincts ; streaming en temps réel via VibeVoice-Realtime-0.5B.
- Accélération d'inférence : Inférence vLLM prise en charge (voir
vllm-asr). - Finetuning : Le code de finetuning ASR est disponible.
- Intégration Hugging Face : VibeVoice-ASR fait désormais partie de la version Transformers (2026-03-06).
Liens rapides :
- Modèle ASR : Lien HF | Playground
- Modèle TTS : Lien HF (code désactivé)
- TTS en temps réel : Lien HF | Colab
Note : Le code VibeVoice-TTS a été retiré du dépôt (2025-09-05) en raison de problèmes d'utilisation abusive, mais les codes ASR et TTS en temps réel restent actifs.
📖 Lire la source complète : HN AI Agents
👀 See Also

Le serveur MCP Gmail open-source ajoute la prise en charge multi-comptes et l'accès en écriture.
Un serveur MCP open-source permet à Claude AI de se connecter à plusieurs comptes Gmail avec des capacités complètes de lecture et d'écriture, incluant l'archivage, l'étiquetage et une fonctionnalité de désabonnement automatique. Il prend en charge la syntaxe de recherche Gmail et peut être déployé sur Railway en 5 minutes ou auto-hébergé.

Pneuma : Un environnement de bureau généré par IA où les logiciels se matérialisent à partir de descriptions
Pneuma est un environnement informatique de bureau où vous décrivez ce que vous voulez—un moniteur de CPU, un jeu, une application de notes ou un visualiseur de données—et un programme fonctionnel se matérialise en quelques secondes. Le système génère des modules Rust autonomes, les compile en WebAssembly et les exécute dans des instances Wasmtime isolées avec rendu GPU via wgpu.

L'Approche de Cursor pour une Recherche Rapide d'Expressions Régulières pour les Agents IA
Cursor développe une recherche d'expressions régulières indexée pour résoudre les problèmes de performance dans les monorepos de grande taille où ripgrep peut prendre plus de 15 secondes, en utilisant des index inversés avec des n-grammes basés sur des recherches de 1993 par Zobel, Moffat et Sacks-Davis.

Le benchmark MemAware montre que la mémoire des agents basés sur RAG échoue lors de la récupération de contexte implicite.
Le benchmark MemAware évalue si les agents IA peuvent rappeler un contexte passé pertinent lorsque les utilisateurs ne le demandent pas explicitement, révélant que les systèmes de mémoire actuels n'atteignent que 2,8 % de précision sur les requêtes implicites difficiles, contre 0,8 % sans mémoire.