Echo-TTS Porté sur Apple Silicon avec MLX pour une Synthèse Vocale Native avec Clonage de Voix

✍️ OpenClawRadar📅 Publié: March 7, 2026🔗 Source
Echo-TTS Porté sur Apple Silicon avec MLX pour une Synthèse Vocale Native avec Clonage de Voix
Ad

Echo-TTS, un modèle de transformateur par diffusion (DiT) de 2,4 milliards de paramètres pour la synthèse vocale avec clonage vocal, a été adapté de CUDA pour fonctionner nativement sur les puces Apple de série M en utilisant MLX. Cette adaptation permet au modèle de générer de la parole dans une voix cible à partir d'un texte et d'un court extrait audio d'une personne parlant.

Performances et Benchmarks

Sur un Mac mini M4 de base avec 16 Go de RAM, le modèle génère un court clonage vocal de 5 secondes en environ 10 secondes. Les clones allant jusqu'à 30 secondes prennent approximativement 60 secondes à générer.

Fonctionnalités Clés

  • Quantification 8 bits : Réduit l'utilisation de mémoire d'environ 6 Go à environ 4 Go, fonctionne plus rapidement avec une perte de qualité négligeable.
  • Génération par blocs : Permet le streaming et les continuations audio.

Détails du Développement

Il s'agit d'une adaptation assistée par IA. Claude Opus 4.6 a géré la spécification et la validation, GPT-5.3-Codex a réalisé l'implémentation, et le développeur a piloté le projet via OpenClaw.

Le dépôt est disponible sur github.com/mznoj/echo-tts-mlx.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

AgentCall : Laissez Claude Code rejoindre les appels Google Meet, Zoom ou Teams en tant que membre de l'équipe
Tools

AgentCall : Laissez Claude Code rejoindre les appels Google Meet, Zoom ou Teams en tant que membre de l'équipe

AgentCall.dev achemine votre session Claude Code, Codex ou Cursor existante vers Google Meet, Teams ou Zoom avec voix, partage d'écran et chat — sans capture d'écran, ni données tierces en mode direct.

OpenClawRadar
Claude Code v2.1.142 : Nouveaux drapeaux des agents Claude, Opus 4.7 par défaut et corrections de bugs
Tools

Claude Code v2.1.142 : Nouveaux drapeaux des agents Claude, Opus 4.7 par défaut et corrections de bugs

Claude Code v2.1.142 ajoute huit nouveaux drapeaux pour configurer les sessions en arrière-plan, passe le mode rapide par défaut à Opus 4.7 et corrige plus d'une douzaine de bugs, notamment le délai d'attente des outils MCP, les problèmes du démon lors des veilles/réveils de macOS et les blocages sur les lecteurs réseau Windows.

OpenClawRadar
Pipeline de Traduction de Livres Locale Utilise Qwen 32B et Mistral 24B avec RAG Contextuel
Tools

Pipeline de Traduction de Livres Locale Utilise Qwen 32B et Mistral 24B avec RAG Contextuel

Un développeur a créé un pipeline de traduction de livres entièrement local et automatisé qui convertit des fichiers PDF au format ePub en utilisant huit scripts Python. Le système aborde les problèmes courants de traduction comme la perte de contexte et les problèmes de mise en forme grâce à un flux de travail en plusieurs étapes.

OpenClawRadar
Intégration d'Agents LLM Locaux avec ComfyUI pour la Génération d'Images par Lots en Langage Naturel
Tools

Intégration d'Agents LLM Locaux avec ComfyUI pour la Génération d'Images par Lots en Langage Naturel

Un développeur explique comment il a connecté son agent OpenClaw local à ComfyUI, permettant des commandes en langage naturel pour des flux de travail de génération d'images par lots. L'intégration utilise une compétence d'agent personnalisée qui traduit les requêtes en anglais en JSON de flux de travail ComfyUI et gère la communication API.

OpenClawRadar