Echo-TTS MLX: TTS con Clonación de Voz en Apple Silicon

Echo-TTS, un modelo de transformador de difusión (DiT) de 2.4B parámetros para texto a voz con clonación de voz, ha sido adaptado de CUDA para ejecutarse nativamente en silicio Apple de la serie M utilizando MLX. La adaptación permite que el modelo genere voz en un tono objetivo cuando se le proporciona texto y un breve clip de audio de alguien hablando.

Rendimiento y Puntos de Referencia

En un Mac mini M4 base de 16GB, el modelo genera un clon de voz corto de 5 segundos en aproximadamente 10 segundos. Clones de hasta 30 segundos tardan aproximadamente 60 segundos en generarse.

Características Principales

Cuantización de 8 bits: Reduce el uso de memoria de aproximadamente 6 GB a unos 4 GB, se ejecuta más rápido con pérdida de calidad insignificante.
Generación por bloques: Permite transmisión en tiempo real y continuaciones de audio.

Detalles de Desarrollo

Esta fue una adaptación asistida por IA. Claude Opus 4.6 manejó la especificación y validación, GPT-5.3-Codex realizó la implementación, y el desarrollador dirigió el proyecto a través de OpenClaw.

El repositorio está disponible en github.com/mznoj/echo-tts-mlx.

📖 Read the full source: r/LocalLLaMA

Echo-TTS Portado a Apple Silicon con MLX para TTS Nativo con Clonación de Voz

Rendimiento y Puntos de Referencia

Características Principales

Detalles de Desarrollo

👀 Ver también

Construyendo un Asistente de Voz AI Local con SwiftUI y CSM-1B en Apple Silicon

Leanstral: Agente de Código de Código Abierto para Lean 4 e Ingeniería de Pruebas Formales

RTX 5060 Ti 16GB en Pruebas de LLM Local: Los Modelos de 30B Siguen Liderando en Codificación

Script de PowerShell automatiza la configuración de Docker para OpenClaw en Windows