Echo-TTS를 Apple Silicon에 MLX로 포팅하여 네이티브 TTS와 음성 복제 기능 구현

Echo-TTS는 음성 복제 기능이 있는 24억 개의 파라미터를 가진 확산 트랜스포머(DiT) 텍스트-음성 변환 모델로, CUDA에서 MLX를 사용하여 Apple M 시리즈 실리콘에서 네이티브로 실행되도록 포팅되었습니다. 이 포팅은 텍스트와 짧은 오디오 클립이 주어졌을 때 목표 음성으로 음성을 생성할 수 있게 합니다.
성능 및 벤치마크
기본 16GB M4 Mac mini에서 이 모델은 짧은 5초 음성 복제를 약 10초 만에 생성합니다. 최대 30초의 복제는 약 60초가 소요됩니다.
주요 기능
- 8비트 양자화: 메모리 사용량을 약 6GB에서 약 4GB로 줄이고, 품질 손실을 거의 없이 더 빠르게 실행합니다.
- 블록 단위 생성: 스트리밍 및 오디오 연속 생성을 가능하게 합니다.
개발 세부사항
이것은 AI 지원 포팅이었습니다. Claude Opus 4.6이 사양 및 검증을 처리했고, GPT-5.3-Codex가 구현을 수행했으며, 개발자가 OpenClaw를 통해 프로젝트를 진행했습니다.
저장소는 github.com/mznoj/echo-tts-mlx에서 이용 가능합니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

operate.txt 소개: SaaS 제품 탐색을 위한 AI 에이전트용 YAML 사양
개발자가 operate.txt를 만들었습니다. 이는 AI 에이전트가 컴퓨터 사용 기능을 활용할 때 화면 세부사항, 로딩 상태, 되돌릴 수 없는 작업, 단계별 경로를 문서화하는 yourdomain.com/operate.txt에 호스팅된 YAML 파일입니다. 이 사양은 Claude가 정상적인 로딩 화면에서 '이거 고장난 거야?'라고 묻는 문제를 해결합니다.

SLayer: 쿼리에서 학습하는 AI 에이전트를 위한 오픈소스 의미 계층
SLayer는 AI 에이전트가 데이터베이스를 쿼리하고, 모델을 관리하며, MCP, REST, CLI 또는 Python을 통해 상호작용으로부터 학습할 수 있는 가볍고 내장 가능한 의미 계층입니다.

AnyClaw APK를 통해 Android에서 OpenClaw와 Codex CLI를 네이티브로 실행하기
개발자가 OpenClaw와 Codex CLI를 AnyClaw라는 Android APK로 패키징하여, 루트 권한 없이 ARM64 Android 7.0+ 기기에서 로컬로 게이트웨이와 Control UI를 실행할 수 있게 했습니다. 이 프로젝트는 소스에서 의존성을 빌드하고 Android 특정 제약을 처리하기 위해 여러 구성 요소를 패치하는 작업이 필요했습니다.

HolyCode: 지속적인 Claude AI 코딩 환경을 위한 Docker 컨테이너
HolyCode는 머신 전환 및 재구축 시 AI 코딩 환경 상태를 유지하는 Docker 컨테이너입니다. 30개 이상의 사전 설치된 도구, Chromium + xvfb + Playwright를 통한 브라우저 자동화를 포함하며, ./data/opencode에 컨텍스트를 보존합니다.