Microsoft VibeVoice: ASR de 60 minutos y TTS de 90 minutos de código abierto

✍️ OpenClawRadar📅 Publicado: 28 de abril de 2026🔗 Source
Microsoft VibeVoice: ASR de 60 minutos y TTS de 90 minutos de código abierto
Ad

Microsoft publicó en código abierto VibeVoice, una familia de modelos de IA de voz de vanguardia que cubre tanto ASR como TTS. El modelo ASR (VibeVoice-ASR-7B) procesa hasta 60 minutos de audio de larga duración en una sola pasada (ventana de 64K tokens), generando transcripciones estructuradas con identificación del hablante, marcas de tiempo y texto, con soporte para más de 50 idiomas. También admite palabras clave personalizadas para términos específicos del dominio. El modelo TTS (VibeVoice-TTS-1.5B) puede sintetizar hasta 90 minutos de voz multi-hablante (hasta 4 hablantes). Una variante en tiempo real (VibeVoice-Realtime-0.5B) admite entrada de texto en streaming y generación de larga duración con voces multilingües (9 idiomas) y 11 voces de estilo en inglés.

Ad

Detalles técnicos clave

  • Innovación central: Tokenizadores de voz continuos (Acústico y Semántico) a una frecuencia de fotogramas ultrabaja de 7.5 Hz, preservando la fidelidad del audio mientras aumentan la eficiencia computacional para secuencias largas.
  • Arquitectura: Marco de difusión del siguiente token: un LLM maneja el contexto textual y el flujo de diálogo, un cabezal de difusión genera detalles acústicos de alta fidelidad.
  • Capacidades ASR: Audio de 60 minutos en una sola pasada, ASR + diarización + marcas de tiempo combinados (Quién, Cuándo, Qué), palabras clave personalizables.
  • Capacidades TTS: Síntesis de hasta 90 minutos con hasta 4 hablantes distintos; transmisión en tiempo real mediante VibeVoice-Realtime-0.5B.
  • Aceleración de inferencia: Compatible con inferencia vLLM (ver vllm-asr).
  • Ajuste fino: Código de ajuste fino ASR disponible.
  • Integración con Hugging Face: VibeVoice-ASR ahora forma parte del lanzamiento de Transformers (06-03-2026).

Enlaces rápidos:

Nota: El código de VibeVoice-TTS fue eliminado del repositorio (05-09-2025) debido a preocupaciones de mal uso, pero el código ASR y TTS en tiempo real permanecen activos.

📖 Lee la fuente completa: HN AI Agents

Ad

👀 Ver también

La habilidad Claude Code combina los enfoques de DeepMind Aletheia y Anthropic harness.
Herramientas

La habilidad Claude Code combina los enfoques de DeepMind Aletheia y Anthropic harness.

Una habilidad de Claude Code implementa una canalización Planificador→Generador→Evaluador→Revisor que sintetiza el agente de investigación matemática Aletheia de DeepMind con la arquitectura de codificación multiagente de Anthropic, añadiendo un preanálisis ciego donde el evaluador razona sobre enfoques correctos antes de ver el código candidato.

OpenClawRadar
DeepClaude reemplaza el backend Anthropic de Claude Code por DeepSeek V4 Pro con un costo 17 veces menor
Herramientas

DeepClaude reemplaza el backend Anthropic de Claude Code por DeepSeek V4 Pro con un costo 17 veces menor

Un script que reescribe las variables de entorno de Claude Code para enrutar todas las llamadas del bucle del agente a través de DeepSeek V4 Pro, OpenRouter o Fireworks AI — misma experiencia de usuario, $0.87/M tokens de salida vs $15/M.

OpenClawRadar
Los usuarios de OpenClaw informan cuellos de botella en la planificación y revisión con agentes de IA.
Herramientas

Los usuarios de OpenClaw informan cuellos de botella en la planificación y revisión con agentes de IA.

Los usuarios de OpenClaw describen los flujos de trabajo de planificación y revisión como 'parecidos a MS-DOS' a pesar de la generación de código efectiva, citando la intervención manual, la fragmentación de documentos y la pérdida de razonamiento durante la colaboración entre agentes. Algunos están experimentando con editores de documentos nativos para agentes como comment.io y Proof by Every.

OpenClawRadar
El Benchmark PhAIL Evalúa Modelos VLA en Tareas Reales de Robots de Almacén
Herramientas

El Benchmark PhAIL Evalúa Modelos VLA en Tareas Reales de Robots de Almacén

PhAIL es un punto de referencia para robots reales que evalúa cuatro modelos de visión-lenguaje-acción en la recolección de pedidos de contenedor a contenedor utilizando un robot Franka FR3. El mejor modelo logró 64 unidades por hora, en comparación con 330 UPH para la teleoperación humana y más de 1,300 UPH para el trabajo manual humano.

OpenClawRadar