Microsoft VibeVoice: Modelos ASR de 60 Min e TTS de 90 Min de Código Aberto

✍️ OpenClawRadar📅 Publicado: April 28, 2026🔗 Source
Microsoft VibeVoice: Modelos ASR de 60 Min e TTS de 90 Min de Código Aberto
Ad

A Microsoft disponibilizou como código aberto o VibeVoice, uma família de modelos de voz IA de ponta que abrange ASR e TTS. O modelo ASR (VibeVoice-ASR-7B) processa até 60 minutos de áudio de formato longo em uma única passagem (janela de 64K tokens), gerando transcrições estruturadas com identificação do falante, timestamps e texto — com suporte a mais de 50 idiomas. Também oferece suporte a hotwords personalizadas pelo usuário para termos específicos de domínio. O modelo TTS (VibeVoice-TTS-1.5B) pode sintetizar até 90 minutos de fala com múltiplos falantes (até 4 falantes). Uma variante em tempo real (VibeVoice-Realtime-0.5B) suporta entrada de texto em streaming e geração de formato longo com vozes multilíngues (9 idiomas) e 11 vozes em inglês.

Ad

Detalhes Técnicos Principais

  • Inovação central: Tokenizadores de fala contínuos (Acústico e Semântico) com uma taxa de quadros ultrabaixa de 7,5 Hz, preservando a fidelidade do áudio e aumentando a eficiência computacional para sequências longas.
  • Arquitetura: Estrutura de difusão de próximo token — um LLM lida com o contexto textual e o fluxo do diálogo, e um cabeçote de difusão gera detalhes acústicos de alta fidelidade.
  • Capacidades ASR: Áudio de 60 minutos em passagem única, ASR + diarização + timestamps (Quem, Quando, O quê), hotwords personalizáveis.
  • Capacidades TTS: Síntese de formato longo de 90 minutos com até 4 falantes distintos; streaming em tempo real via VibeVoice-Realtime-0.5B.
  • Aceleração de inferência: Suporte a inferência vLLM (veja vllm-asr).
  • Fine-tuning: Código de fine-tuning ASR está disponível.
  • Integração Hugging Face: VibeVoice-ASR agora faz parte do lançamento do Transformers (06/03/2026).

Links rápidos:

Nota: O código do VibeVoice-TTS foi removido do repositório (05/09/2025) devido a preocupações com uso indevido, mas os códigos ASR e TTS em tempo real permanecem ativos.

📖 Leia a fonte completa: HN AI Agents

Ad

👀 See Also

CC-Canary: Detecte Regressões no Claude Code com Análise Local de JSONL
Tools

CC-Canary: Detecte Regressões no Claude Code com Análise Local de JSONL

CC-Canary lê os logs de sessão do Claude Code e produz um relatório forense sobre deriva de modelo, incluindo razão leitura:edição, loops de raciocínio, tendências de custo e datas de inflexão detectadas automaticamente.

OpenClawRadar
PocketBot: aplicativo iOS usa Claude para gerar automações JavaScript determinísticas a partir de linguagem natural
Tools

PocketBot: aplicativo iOS usa Claude para gerar automações JavaScript determinísticas a partir de linguagem natural

PocketBot é um aplicativo de automação móvel para iOS que usa o Claude (via AWS Bedrock) para converter solicitações em linguagem simples em scripts JavaScript autossuficientes. O LLM escreve o código uma vez, e então os scripts determinísticos são executados conforme agendamento em um ambiente de execução isolado, sem envolvimento de IA.

OpenClawRadar
A ferramenta Claude-context-lint audita a sobrecarga de tokens em projetos Claude Code.
Tools

A ferramenta Claude-context-lint audita a sobrecarga de tokens em projetos Claude Code.

Uma nova ferramenta chamada claude-context-lint analisa projetos do Claude Code para mostrar quanto da janela de contexto é consumida por arquivos CLAUDE.md, habilidades, servidores MCP e prompts do sistema antes da entrada do usuário. A ferramenta fornece recomendações específicas para reduzir o uso de tokens.

OpenClawRadar
Mapa Mental Interativo Visualiza o Ecossistema de Ferramentas Claude
Tools

Mapa Mental Interativo Visualiza o Ecossistema de Ferramentas Claude

Um desenvolvedor criou um mapa mental interativo em HTML usando D3.js para acompanhar recursos nas ferramentas Chat, Cowork e Code do Claude, incluindo disponibilidade de plataforma, diferenças de preços e compatibilidade de conectores.

OpenClawRadar