Echo-TTSがApple Siliconに移植され、MLXを活用したネイティブTTSと音声クローニングを実現

Echo-TTSは、音声クローニング機能を備えた2.4Bパラメータの拡散型トランスフォーマー(DiT)テキスト読み上げモデルで、CUDAからMLXを使用してApple Mシリーズチップ上でネイティブに動作するように移植されました。この移植により、モデルはテキストと短い音声クリップを与えられると、対象の声で音声を生成できるようになりました。
性能とベンチマーク
ベースモデルの16GB M4 Mac miniでは、モデルは短い5秒の音声クローンを約10秒で生成します。最大30秒のクローンは、生成に約60秒かかります。
主な特徴
- 8ビット量子化: メモリ使用量を約6GBから約4GBに削減し、品質の低下をほとんど伴わずに高速に動作します。
- ブロック単位生成: ストリーミングと音声の継続を可能にします。
開発詳細
これはAI支援による移植でした。Claude Opus 4.6が仕様と検証を担当し、GPT-5.3-Codexが実装を実行し、開発者がOpenClawを通じてプロジェクトを主導しました。
リポジトリはgithub.com/mznoj/echo-tts-mlxで利用可能です。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

プロアクティブを解き放つ:コミュニティによるクロウボット革新の深層分析
愛好家たちがどのように創意工夫とコミュニティ主導の洞察を通じてClawbotの積極性を高めているかを発見しましょう。r/openclawからの議論と発見の一瞥です。

Claude Code リモートコントロール:あらゆるデバイスからローカルセッションを継続
Claude Code リモートコントロールは、ローカルの Claude Code セッションを他のデバイス(電話やブラウザなど)から継続して利用できるようにし、すべてを自分のマシン上で実行し続けます。これは、Pro および Max プランで研究プレビューとして利用可能で、認証とワークスペースの信頼設定が必要です。

ReasonDB: ベクトル検索ではなくLLM誘導ツリーナビゲーションを使用するオープンソースドキュメントデータベース
ReasonDBは、ドキュメント構造を階層として保持し、ベクトル検索の代わりにLLMガイドによるツリートラバーサルを検索に使用するオープンソースのドキュメントデータベースです。初期検索にはBM25を使用し、構造フィルタリングにはtree-grepを使用し、LLMが数百万ノードのうち約25ノードを訪問するビームサーチトラバーサルを採用しています。

Claudeワークフローライブラリ、Reddit発のワークフローを自動追跡・評価開始
主要なサブレディットからのClaudeおよびClaude Codeワークフローを検索可能で自動更新されるインデックス。手順、アーティファクト、コミュニティ評価付き。