Echo-TTS auf Apple Silicon portiert mit MLX für native TTS mit Sprachklonierung

✍️ OpenClawRadar📅 Veröffentlicht: 7. März 2026🔗 Source
Echo-TTS auf Apple Silicon portiert mit MLX für native TTS mit Sprachklonierung
Ad

Echo-TTS, ein 2,4-Milliarden-Parameter-Diffusionstransformer (DiT)-Modell für Text-zu-Sprache mit Sprachklonierung, wurde von CUDA auf MLX portiert, um nativ auf Apple M-Series-Chips zu laufen. Die Portierung ermöglicht es dem Modell, Sprache in einer Zielstimme zu erzeugen, wenn Text und eine kurze Audioaufnahme einer sprechenden Person gegeben sind.

Leistung und Benchmarks

Auf einem Basis-Mac mini M4 mit 16 GB erzeugt das Modell einen kurzen 5-Sekunden-Sprachklon in etwa 10 Sekunden. Klone von bis zu 30 Sekunden dauern ungefähr 60 Sekunden zur Erstellung.

Hauptmerkmale

  • 8-Bit-Quantisierung: Reduziert den Speicherverbrauch von etwa 6 GB auf etwa 4 GB, läuft schneller mit vernachlässigbarem Qualitätsverlust.
  • Blockweise Erzeugung: Ermöglicht Streaming und Audiofortsetzungen.

Entwicklungsdetails

Dies war eine KI-unterstützte Portierung. Claude Opus 4.6 übernahm Spezifikation und Validierung, GPT-5.3-Codex führte die Implementierung durch, und der Entwickler steuerte das Projekt durch OpenClaw.

Das Repository ist verfügbar unter github.com/mznoj/echo-tts-mlx.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch