Microsoft VibeVoice: 60分ASRおよび90分TTSモデルがオープンソース化

✍️ OpenClawRadar📅 公開日: April 28, 2026🔗 Source
Microsoft VibeVoice: 60分ASRおよび90分TTSモデルがオープンソース化
Ad

マイクロソフトは、ASRとTTSの両方をカバーするフロンティア音声AIモデルファミリー、VibeVoiceをオープンソース化しました。ASRモデル(VibeVoice-ASR-7B)は、60分までの長尺音声をシングルパス(64Kトークンウィンドウ)で処理し、話者ID、タイムスタンプ、テキストを含む構造化された文字起こしを出力します。50以上の言語に対応し、ドメイン固有の用語向けにユーザーカスタマイズ可能なホットワードもサポートします。TTSモデル(VibeVoice-TTS-1.5B)は、最大4人の話者による最大90分のマルチスピーカー音声を合成できます。リアルタイムバリアント(VibeVoice-Realtime-0.5B)は、ストリーミングテキスト入力と長尺生成をサポートし、多言語音声(9言語)と11の英語スタイル音声を提供します。

Ad

主要な技術詳細

  • 中核的革新: フレームレート7.5Hzという超低フレームレートの連続音声トークナイザー(音響および意味)により、オーディオの忠実度を保ちながら、長いシーケンスの計算効率を向上。
  • アーキテクチャ: ネクストトークン拡散フレームワーク — LLMがテキストコンテキストと対話フローを処理し、拡散ヘッドが高忠実度の音響詳細を生成。
  • ASR機能: シングルパス60分音声、ASR+ダイアリゼーション+タイムスタンプ(誰が、いつ、何を)の統合、カスタマイズ可能なホットワード。
  • TTS機能: 最大4人の異なる話者による90分の長尺合成;VibeVoice-Realtime-0.5Bによるリアルタイムストリーミング。
  • 推論高速化: vLLM推論対応(vllm-asrを参照)。
  • ファインチューニング: ASRファインチューニングコードが利用可能。
  • Hugging Face統合: VibeVoice-ASRはTransformersリリース(2026-03-06)の一部になりました。

クイックリンク:

注: VibeVoice-TTSコードは、誤用の懸念からリポジトリから削除されました(2025-09-05)が、ASRおよびリアルタイムTTSコードは引き続き利用可能です。

📖 全文ソースを読む: HN AI Agents

Ad

👀 See Also

Redditビジネスリサーチ用Claudeコードプラグイン
Tools

Redditビジネスリサーチ用Claudeコードプラグイン

Claude Codeプラグインは、関連する投稿を検索し、スレッドを分析し、調査結果とソースリンクを含む構造化されたマークダウンレポートを生成することで、企業向けのReddit調査を自動化します。APIキーは不要で、GitHub経由でインストールし、単一のコマンドで実行できます。

OpenClawRadar
MoltSoup:AIエージェントが競い合う持続型マルチプレイヤーワールド
Tools

MoltSoup:AIエージェントが競い合う持続型マルチプレイヤーワールド

MoltSoupは、AIエージェントが6つのゾーンを探索し、モンスターと戦い、オーダーブック市場で取引し、PVPに参加できる持続型マルチプレイヤー環境です。エージェントはskill.mdファイルを読み、APIへのHTTP呼び出しを行うことで相互作用します。

OpenClawRadar
ATLAS:適応型テスト時学習フレームワークが、500ドルGPUでコーディングベンチマークにおいてClaude Sonnetを上回る
Tools

ATLAS:適応型テスト時学習フレームワークが、500ドルGPUでコーディングベンチマークにおいてClaude Sonnetを上回る

ATLASは、単一のコンシューマーGPU上で凍結された14Bモデルを使用し、LiveCodeBenchで74.6%のpass@1-v(k=3)を達成しました。これは、制約駆動生成と自己検証による反復的改良を用いて、Claude 4.5 Sonnetの71.4%を上回り、はるかに低コストで実現しています。

OpenClawRadar
Claude CodeとObsidianを使った自己改善型知識システムの構築
Tools

Claude CodeとObsidianを使った自己改善型知識システムの構築

ある開発者が、Obsidianボールト上で意味検索、ナレッジグラフ、間隔反復を活用し、Claude Codeに永続的なメモリを提供する25種類のツールからなるシステムを構築しました。このシステムは、bge-m3埋め込みによるコンテンツのインデックス化、矛盾の検出、古いノートの自動整理、Obsidian Canvasマップの自動生成を行います。

OpenClawRadar