Microsoft VibeVoice: Open-Source-ASR-Modelle für 60 Minuten und TTS-Modelle für 90 Minuten

✍️ OpenClawRadar📅 Veröffentlicht: 28. April 2026🔗 Source
Microsoft VibeVoice: Open-Source-ASR-Modelle für 60 Minuten und TTS-Modelle für 90 Minuten
Ad

Microsoft hat VibeVoice als Open Source veröffentlicht, eine Familie von wegweisenden Sprach-KI-Modellen, die sowohl ASR als auch TTS abdeckt. Das ASR-Modell (VibeVoice-ASR-7B) verarbeitet bis zu 60 Minuten lange Audioaufnahmen in einem einzigen Durchlauf (64K-Token-Fenster) und gibt strukturierte Transkriptionen mit Sprecher-ID, Zeitstempeln und Text aus – unterstützt über 50 Sprachen. Es unterstützt auch benutzerdefinierte Hotwords für domänenspezifische Begriffe. Das TTS-Modell (VibeVoice-TTS-1.5B) kann bis zu 90 Minuten mehrsprachige Sprache (bis zu 4 Sprecher) synthetisieren. Eine Echtzeit-Variante (VibeVoice-Realtime-0.5B) unterstützt Streaming-Text-Eingabe und langformatige Generierung mit mehrsprachigen Stimmen (9 Sprachen) und 11 englischen Stil-Stimmen.

Ad

Wichtige technische Details

  • Kerninnovation: Kontinuierliche Sprach-Tokenizer (Akustisch und Semantisch) mit einer extrem niedrigen Bildrate von 7,5 Hz, die die Audioqualität bewahren und gleichzeitig die Recheneffizienz für lange Sequenzen steigern.
  • Architektur: Next-Token-Diffusion-Framework – ein LLM übernimmt den Textkontext und den Dialogfluss, ein Diffusionskopf generiert hochauflösende akustische Details.
  • ASR-Fähigkeiten: Single-Pass 60-minütiges Audio, kombiniertes ASR + Diarisierung + Zeitstempel (Wer, Wann, Was), anpassbare Hotwords.
  • TTS-Fähigkeiten: 90-minütige Langform-Synthese mit bis zu 4 verschiedenen Sprechern; Echtzeit-Streaming über VibeVoice-Realtime-0.5B.
  • Inferenzbeschleunigung: vLLM-Inferenz wird unterstützt (siehe vllm-asr).
  • Feinabstimmung: Code zur Feinabstimmung von ASR ist verfügbar.
  • Hugging Face-Integration: VibeVoice-ASR ist jetzt Teil des Transformers-Releases (2026-03-06).

Schnelllinks:

Hinweis: Der VibeVoice-TTS-Code wurde aufgrund von Bedenken wegen Missbrauchs aus dem Repository entfernt (05.09.2025), aber ASR- und Echtzeit-TTS-Code bleiben aktiv.

📖 Lesen Sie die vollständige Quelle: HN AI Agents

Ad

👀 Siehe auch

Einführung von operate.txt: Eine YAML-Spezifikation für KI-Agenten zur Navigation von SaaS-Produkten
Werkzeuge

Einführung von operate.txt: Eine YAML-Spezifikation für KI-Agenten zur Navigation von SaaS-Produkten

Ein Entwickler hat operate.txt erstellt, eine YAML-Datei, die unter yourdomain.com/operate.txt gehostet wird und Bildschirmdetails, Ladezustände, irreversible Aktionen sowie schrittweise Pfade für KI-Agenten dokumentiert, die Computer-Nutzungsfunktionen verwenden. Die Spezifikation behandelt Probleme wie Claude, das bei legitimen Ladebildschirmen fragt: 'Ist das kaputt?'

OpenClawRadar
🦀
Werkzeuge

Zillow-Full: Eine OpenClaw-Fähigkeit, die manuelle Immobilienrecherche in eine automatisierte Deal-Pipeline verwandelte

Ein Entwickler baute 'zillow-full' auf OpenClaw, um Zestimates, Steuerhistorie, Preishistorie und Vergleiche pro Immobilie abzurufen. Mit einem nächtlichen Cron-Job, der Angebote anhand von Deal-Kriterien bewertete, stiegen die Großhandelsgeschäfte von 2 auf 11 pro Monat.

OpenClawRadar
bad-ass-mcp: Kostenloses, Open-Source-MCP für native Desktop-GUI-Steuerung über Accessibility-API
Werkzeuge

bad-ass-mcp: Kostenloses, Open-Source-MCP für native Desktop-GUI-Steuerung über Accessibility-API

bad-ass-mcp ist ein Open-Source-MCP-Server, der Claude und anderen KI-Agenten ermöglicht, macOS-, Windows- und Linux-Desktops über die native Barrierefreiheitsschicht zu steuern – ohne Screenshots, ohne Look-Move-Look-Schleifen. Kostenlose Alternative zu Computer Use, Operator oder UiPath.

OpenClawRadar
TeamHero v2.6.1: Open-Source-Plattform zur Verwaltung von Claude KI-Agenten
Werkzeuge

TeamHero v2.6.1: Open-Source-Plattform zur Verwaltung von Claude KI-Agenten

TeamHero v2.6.1 ist eine lokal-first, Open-Source-Plattform, die ein verwaltetes Team von Claude-Agenten mit Funktionen wie Autopilot-Modus, Unteraufgaben-Verschachtelung, Flussansichten und persistentem Gedächtnis erstellt. Das Tool läuft auf Node.js mit einem Vanilla-HTML/CSS/JS-Dashboard und benötigt keine Datenbank.

OpenClawRadar