Echo-TTS Portado a Apple Silicon con MLX para TTS Nativo con Clonación de Voz

✍️ OpenClawRadar📅 Publicado: 7 de marzo de 2026🔗 Source
Echo-TTS Portado a Apple Silicon con MLX para TTS Nativo con Clonación de Voz
Ad

Echo-TTS, un modelo de transformador de difusión (DiT) de 2.4B parámetros para texto a voz con clonación de voz, ha sido adaptado de CUDA para ejecutarse nativamente en silicio Apple de la serie M utilizando MLX. La adaptación permite que el modelo genere voz en un tono objetivo cuando se le proporciona texto y un breve clip de audio de alguien hablando.

Rendimiento y Puntos de Referencia

En un Mac mini M4 base de 16GB, el modelo genera un clon de voz corto de 5 segundos en aproximadamente 10 segundos. Clones de hasta 30 segundos tardan aproximadamente 60 segundos en generarse.

Características Principales

  • Cuantización de 8 bits: Reduce el uso de memoria de aproximadamente 6 GB a unos 4 GB, se ejecuta más rápido con pérdida de calidad insignificante.
  • Generación por bloques: Permite transmisión en tiempo real y continuaciones de audio.

Detalles de Desarrollo

Esta fue una adaptación asistida por IA. Claude Opus 4.6 manejó la especificación y validación, GPT-5.3-Codex realizó la implementación, y el desarrollador dirigió el proyecto a través de OpenClaw.

El repositorio está disponible en github.com/mznoj/echo-tts-mlx.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Construyendo un Asistente de Voz AI Local con SwiftUI y CSM-1B en Apple Silicon
Herramientas

Construyendo un Asistente de Voz AI Local con SwiftUI y CSM-1B en Apple Silicon

Un desarrollador creó mobiGlas, una aplicación SwiftUI que se empareja con OpenClaw para permitir conversaciones manos libres a través de AirPods, usando clonación de voz local (CSM-1B en M2 Ultra) y sin APIs en la nube.

OpenClawRadar
Leanstral: Agente de Código de Código Abierto para Lean 4 e Ingeniería de Pruebas Formales
Herramientas

Leanstral: Agente de Código de Código Abierto para Lean 4 e Ingeniería de Pruebas Formales

Mistral AI lanzó Leanstral, el primer agente de código de código abierto diseñado para Lean 4, con 6B parámetros activos y licencia Apache 2.0. Los benchmarks muestran que supera a modelos de código abierto más grandes y ofrece un rendimiento competitivo frente a Claude a un costo significativamente menor.

OpenClawRadar
RTX 5060 Ti 16GB en Pruebas de LLM Local: Los Modelos de 30B Siguen Liderando en Codificación
Herramientas

RTX 5060 Ti 16GB en Pruebas de LLM Local: Los Modelos de 30B Siguen Liderando en Codificación

Los benchmarks en una RTX 5060 Ti 16GB muestran que Unsloth Qwen3-Coder-30B UD-Q3_K_XL alcanza 76.3 tok/s en Ubuntu con una puntuación de calidad de 8.14, lo que lo convierte en el modelo de codificación recomendado por defecto. El Unsloth Qwen3.5-35B UD-Q2_K_XL alcanza 80.1 tok/s pero con puntuaciones de calidad más bajas.

OpenClawRadar
Script de PowerShell automatiza la configuración de Docker para OpenClaw en Windows
Herramientas

Script de PowerShell automatiza la configuración de Docker para OpenClaw en Windows

Un script de PowerShell maneja las peculiaridades específicas de Windows en la red y la configuración de Docker para OpenClaw, automatizando comprobaciones, obtención de imágenes, guía de configuración e implementación de contenedores.

OpenClawRadar