Echo-TTS를 Apple Silicon에 MLX로 포팅하여 네이티브 TTS와 음성 복제 기능 구현

✍️ OpenClawRadar📅 게시일: March 7, 2026🔗 Source
Echo-TTS를 Apple Silicon에 MLX로 포팅하여 네이티브 TTS와 음성 복제 기능 구현
Ad

Echo-TTS는 음성 복제 기능이 있는 24억 개의 파라미터를 가진 확산 트랜스포머(DiT) 텍스트-음성 변환 모델로, CUDA에서 MLX를 사용하여 Apple M 시리즈 실리콘에서 네이티브로 실행되도록 포팅되었습니다. 이 포팅은 텍스트와 짧은 오디오 클립이 주어졌을 때 목표 음성으로 음성을 생성할 수 있게 합니다.

성능 및 벤치마크

기본 16GB M4 Mac mini에서 이 모델은 짧은 5초 음성 복제를 약 10초 만에 생성합니다. 최대 30초의 복제는 약 60초가 소요됩니다.

주요 기능

  • 8비트 양자화: 메모리 사용량을 약 6GB에서 약 4GB로 줄이고, 품질 손실을 거의 없이 더 빠르게 실행합니다.
  • 블록 단위 생성: 스트리밍 및 오디오 연속 생성을 가능하게 합니다.

개발 세부사항

이것은 AI 지원 포팅이었습니다. Claude Opus 4.6이 사양 및 검증을 처리했고, GPT-5.3-Codex가 구현을 수행했으며, 개발자가 OpenClaw를 통해 프로젝트를 진행했습니다.

저장소는 github.com/mznoj/echo-tts-mlx에서 이용 가능합니다.

📖 전체 출처 읽기: r/LocalLLaMA

Ad

👀 See Also

operate.txt 소개: SaaS 제품 탐색을 위한 AI 에이전트용 YAML 사양
Tools

operate.txt 소개: SaaS 제품 탐색을 위한 AI 에이전트용 YAML 사양

개발자가 operate.txt를 만들었습니다. 이는 AI 에이전트가 컴퓨터 사용 기능을 활용할 때 화면 세부사항, 로딩 상태, 되돌릴 수 없는 작업, 단계별 경로를 문서화하는 yourdomain.com/operate.txt에 호스팅된 YAML 파일입니다. 이 사양은 Claude가 정상적인 로딩 화면에서 '이거 고장난 거야?'라고 묻는 문제를 해결합니다.

OpenClawRadar
SLayer: 쿼리에서 학습하는 AI 에이전트를 위한 오픈소스 의미 계층
Tools

SLayer: 쿼리에서 학습하는 AI 에이전트를 위한 오픈소스 의미 계층

SLayer는 AI 에이전트가 데이터베이스를 쿼리하고, 모델을 관리하며, MCP, REST, CLI 또는 Python을 통해 상호작용으로부터 학습할 수 있는 가볍고 내장 가능한 의미 계층입니다.

OpenClawRadar
AnyClaw APK를 통해 Android에서 OpenClaw와 Codex CLI를 네이티브로 실행하기
Tools

AnyClaw APK를 통해 Android에서 OpenClaw와 Codex CLI를 네이티브로 실행하기

개발자가 OpenClaw와 Codex CLI를 AnyClaw라는 Android APK로 패키징하여, 루트 권한 없이 ARM64 Android 7.0+ 기기에서 로컬로 게이트웨이와 Control UI를 실행할 수 있게 했습니다. 이 프로젝트는 소스에서 의존성을 빌드하고 Android 특정 제약을 처리하기 위해 여러 구성 요소를 패치하는 작업이 필요했습니다.

OpenClawRadar
HolyCode: 지속적인 Claude AI 코딩 환경을 위한 Docker 컨테이너
Tools

HolyCode: 지속적인 Claude AI 코딩 환경을 위한 Docker 컨테이너

HolyCode는 머신 전환 및 재구축 시 AI 코딩 환경 상태를 유지하는 Docker 컨테이너입니다. 30개 이상의 사전 설치된 도구, Chromium + xvfb + Playwright를 통한 브라우저 자동화를 포함하며, ./data/opencode에 컨텍스트를 보존합니다.

OpenClawRadar