Microsoft VibeVoice: ASR y TTS de código abierto en 60 y 90 minutos

Microsoft publicó en código abierto VibeVoice, una familia de modelos de IA de voz de vanguardia que cubre tanto ASR como TTS. El modelo ASR (VibeVoice-ASR-7B) procesa hasta 60 minutos de audio de larga duración en una sola pasada (ventana de 64K tokens), generando transcripciones estructuradas con identificación del hablante, marcas de tiempo y texto, con soporte para más de 50 idiomas. También admite palabras clave personalizadas para términos específicos del dominio. El modelo TTS (VibeVoice-TTS-1.5B) puede sintetizar hasta 90 minutos de voz multi-hablante (hasta 4 hablantes). Una variante en tiempo real (VibeVoice-Realtime-0.5B) admite entrada de texto en streaming y generación de larga duración con voces multilingües (9 idiomas) y 11 voces de estilo en inglés.

Detalles técnicos clave

Innovación central: Tokenizadores de voz continuos (Acústico y Semántico) a una frecuencia de fotogramas ultrabaja de 7.5 Hz, preservando la fidelidad del audio mientras aumentan la eficiencia computacional para secuencias largas.
Arquitectura: Marco de difusión del siguiente token: un LLM maneja el contexto textual y el flujo de diálogo, un cabezal de difusión genera detalles acústicos de alta fidelidad.
Capacidades ASR: Audio de 60 minutos en una sola pasada, ASR + diarización + marcas de tiempo combinados (Quién, Cuándo, Qué), palabras clave personalizables.
Capacidades TTS: Síntesis de hasta 90 minutos con hasta 4 hablantes distintos; transmisión en tiempo real mediante VibeVoice-Realtime-0.5B.
Aceleración de inferencia: Compatible con inferencia vLLM (ver vllm-asr).
Ajuste fino: Código de ajuste fino ASR disponible.
Integración con Hugging Face: VibeVoice-ASR ahora forma parte del lanzamiento de Transformers (06-03-2026).

Enlaces rápidos:

Modelo ASR: Enlace HF | Playground
Modelo TTS: Enlace HF (código deshabilitado)
TTS en tiempo real: Enlace HF | Colab

Nota: El código de VibeVoice-TTS fue eliminado del repositorio (05-09-2025) debido a preocupaciones de mal uso, pero el código ASR y TTS en tiempo real permanecen activos.

📖 Lee la fuente completa: HN AI Agents

Microsoft VibeVoice: ASR de 60 minutos y TTS de 90 minutos de código abierto

Detalles técnicos clave

👀 Ver también

La habilidad Claude Code combina los enfoques de DeepMind Aletheia y Anthropic harness.

DeepClaude reemplaza el backend Anthropic de Claude Code por DeepSeek V4 Pro con un costo 17 veces menor

Los usuarios de OpenClaw informan cuellos de botella en la planificación y revisión con agentes de IA.

El Benchmark PhAIL Evalúa Modelos VLA en Tareas Reales de Robots de Almacén