Echo-TTS auf Apple Silicon: MLX-Port für Sprachklonierung

Echo-TTS, ein 2,4-Milliarden-Parameter-Diffusionstransformer (DiT)-Modell für Text-zu-Sprache mit Sprachklonierung, wurde von CUDA auf MLX portiert, um nativ auf Apple M-Series-Chips zu laufen. Die Portierung ermöglicht es dem Modell, Sprache in einer Zielstimme zu erzeugen, wenn Text und eine kurze Audioaufnahme einer sprechenden Person gegeben sind.

Leistung und Benchmarks

Auf einem Basis-Mac mini M4 mit 16 GB erzeugt das Modell einen kurzen 5-Sekunden-Sprachklon in etwa 10 Sekunden. Klone von bis zu 30 Sekunden dauern ungefähr 60 Sekunden zur Erstellung.

Hauptmerkmale

8-Bit-Quantisierung: Reduziert den Speicherverbrauch von etwa 6 GB auf etwa 4 GB, läuft schneller mit vernachlässigbarem Qualitätsverlust.
Blockweise Erzeugung: Ermöglicht Streaming und Audiofortsetzungen.

Entwicklungsdetails

Dies war eine KI-unterstützte Portierung. Claude Opus 4.6 übernahm Spezifikation und Validierung, GPT-5.3-Codex führte die Implementierung durch, und der Entwickler steuerte das Projekt durch OpenClaw.

Das Repository ist verfügbar unter github.com/mznoj/echo-tts-mlx.

📖 Read the full source: r/LocalLLaMA

Echo-TTS auf Apple Silicon portiert mit MLX für native TTS mit Sprachklonierung

Leistung und Benchmarks

Hauptmerkmale

Entwicklungsdetails

👀 Siehe auch

HomeButler: MCP-Server zur Verwaltung von Homelab-Servern über Claude ohne API-Schlüssel

MCP-Server für tiefenverpackten Codebase-Kontext

Murmur: Ein Open-Source-Cron-Daemon zur Automatisierung von Claude-Code-Sitzungen

MCP-Server für lokale XMind-Mindmap-Dateien veröffentlicht