마이크로소프트 VibeVoice: 60분 ASR 및 90분 TTS 모델 오픈소스화

✍️ OpenClawRadar📅 게시일: April 28, 2026🔗 Source
마이크로소프트 VibeVoice: 60분 ASR 및 90분 TTS 모델 오픈소스화
Ad

Microsoft가 VibeVoice를 오픈소스로 공개했습니다. VibeVoice는 ASR과 TTS를 모두 포함하는 최첨단 음성 AI 모델 제품군입니다. ASR 모델(VibeVoice-ASR-7B)은 최대 60분 길이의 오디오를 단일 패스(64K 토큰 윈도우)로 처리하며, 화자 ID, 타임스탬프, 텍스트가 포함된 구조화된 전사 결과를 출력합니다. 50개 이상의 언어를 지원하며, 사용자 지정 핫워드(hotword)를 통해 도메인 특화 용어도 인식할 수 있습니다. TTS 모델(VibeVoice-TTS-1.5B)은 최대 90분 분량의 다중 화자(최대 4명) 음성을 합성할 수 있습니다. 실시간 변형 모델인 VibeVoice-Realtime-0.5B는 스트리밍 텍스트 입력과 장문 생성, 9개 언어의 다국어 음성과 11개의 영어 스타일 음성을 지원합니다.

Ad

주요 기술 세부 사항

  • 핵심 혁신: 초저프레임률(7.5Hz)의 연속 음성 토크나이저(Acoustic 및 Semantic). 오디오 충실도를 유지하면서 긴 시퀀스의 계산 효율을 높입니다.
  • 아키텍처: Next-token diffusion 프레임워크 — LLM이 텍스트 맥락과 대화 흐름을 처리하고, diffusion 헤드가 고충실도 음향 세부 정보를 생성합니다.
  • ASR 기능: 단일 패스 60분 오디오, ASR + 화자 분리 + 타임스탬프 결합(누가, 언제, 무엇), 사용자 정의 핫워드 지원.
  • TTS 기능: 최대 4명의 서로 다른 화자로 90분 장문 합성; VibeVoice-Realtime-0.5B를 통한 실시간 스트리밍.
  • 추론 속도 향상: vLLM 추론 지원(vllm-asr 참조).
  • 파인튜닝: ASR 파인튜닝 코드 제공.
  • Hugging Face 통합: VibeVoice-ASR이 Transformers 릴리스(2026-03-06)에 포함되었습니다.

빠른 링크:

참고: VibeVoice-TTS 코드는 오용 우려로 인해 저장소에서 제거되었지만(2025-09-05), ASR 및 실시간 TTS 코드는 계속 활성 상태입니다.

📖 전체 소스 읽기: HN AI Agents

Ad

👀 See Also

Rever UI Cloner: UI 복제를 위한 HTML 스크래핑 대체 도구, AI 최적화
Tools

Rever UI Cloner: UI 복제를 위한 HTML 스크래핑 대체 도구, AI 최적화

Rever UI Cloner는 원시 HTML 대신 깔끔한 디자인 청사진을 AI 에이전트에 제공하여 컨텍스트 창 팽창과 UI 환각 문제를 방지하는 API 엔드포인트입니다. 에이전트 간 결제를 위해 Base 네트워크에서 1 USDC 마이크로 트랜잭션이 필요한 x402 결제 프로토콜을 사용합니다.

OpenClawRadar
사이닛: AI 에이전트를 위한 오픈소스 로컬-퍼스트 메모리 기반 플랫폼
Tools

사이닛: AI 에이전트를 위한 오픈소스 로컬-퍼스트 메모리 기반 플랫폼

Signet는 AI 에이전트 루프 외부에서 메모리 처리를 이동시키는 오픈소스 메모리 기반입니다. 이는 대화 기록을 보존하고, 세션을 구조화된 메모리로 정제하며, 엔티티를 그래프로 연결하고, 프롬프트 시작 전에 컨텍스트를 주입합니다.

OpenClawRadar
md-redline: Claude에 마크다운 문서를 검토하고 전달하기 위한 GUI 도구
Tools

md-redline: Claude에 마크다운 문서를 검토하고 전달하기 위한 GUI 도구

md-redline은 마크다운 파일을 GUI에서 열고, .md 파일에 HTML 마커로 저장되는 인라인 댓글을 남기며, Claude에 업데이트를 위해 다시 전달할 수 있는 오픈소스 도구입니다. 계정, 클라우드 또는 데이터베이스 없이 로컬에서 실행됩니다.

OpenClawRadar
코그니소어: PGE 트리니티 아키텍처 기반 로컬-퍼스트 에이전트 OS
Tools

코그니소어: PGE 트리니티 아키텍처 기반 로컬-퍼스트 에이전트 OS

Cognithor는 16개의 개발 단계를 거쳐 1년 동안 구축된 완전 로컬 자율 에이전트 OS입니다. PGE 트리니티 아키텍처(Planner → Gatekeeper → Executor), 89% 커버리지의 11,609개 이상의 테스트, Ollama 및 LM Studio를 포함한 16개의 LLM 제공업체를 지원하는 기능을 갖추고 있습니다.

OpenClawRadar