SwiftUIとCSM-1Bを使用したApple Silicon向けローカル音声AIアシスタントの構築

開発者がサイドプロジェクトmobiGlasを公開しました。これは、OpenClaw AIアシスタントをハンズフリーボイスコンパニオンに変えるSwiftUIアプリです。このアプリは、Apple Silicon上で完全に動作し、ローカル音声認識、ローカルLLM、CSM-1Bを使用したローカル音声クローニングを採用しており、クラウド依存はありません。
主な詳細
- トリガー: AirPodsに向かって「Hey Skippy」と言うと会話が開始されます。
- 音声: M2 Ultra上でローカルに動作するCSM-1B音声クローニングモデルを使用。約7秒で約15秒の音声を生成します。
- スタック:
- OpenClaw — Mac上で動作するAIアシスタントフレームワーク
- mobiGlas — リアルタイム音声認識と音声合成を備えたSwiftUIアプリ
- CSM-1B — ローカル音声クローニングモデル
- AirPods — ハンズフリー音声入出力
- ステータス: v0.1(「ガタガタだが使える」と表現)。AIと歩きながら会話する感覚は「本当にすごい」とのこと。
- 音声例: 開発者は、アシスタント「Skippy」としてR.C. Bray(『エクスペディショナリー・フォース』のナレーター)の声をクローニングしました。
今後の予定
開発者は、ニュース配信、リマインダー、アイデアを声に出して話すなど、日常のユースケースに向けてエクスペリエンスをスムーズにする予定です。
Apple Siliconでローカル音声AIを試している方は、開発者が情報交換を希望しています。
📖 全文を読む: r/openclaw
👀 See Also

フェーズロック:子育ての手法に着想を得たAIエージェント制御システム
Phaselockは、AIエージェント向けの4つの制御メカニズム(行動前の明示的なゲート、ミスに対する即時フィードバック、選択肢の制約、機械的なルール強制)を実装したオープンソースのAgent Skillです。Claude Code、Cursor、Windsurf、フックをサポートするツールと連携します。

soul.pyは、シンプルなファイルベースのアプローチでローカルLLMに永続的なメモリを追加します。
soul.pyは、アイデンティティ情報と会話ログ用の2つのマークダウンファイルを使用して、Ollama、OpenAI、Anthropicモデルでデータベースやサーバーを必要とせずに、あらゆるLLMに永続的なメモリを追加するPythonライブラリです。

Claude、ElevenLabs、Fluxで構築されたマルチエージェント討論アプリ
ある開発者が、Claudeを活用した議論アプリを構築しました。このアプリでは、ユーザーが2つのペルソナとトピックを選択すると、Claudeがそれぞれの立場に合わせて議論を生成します。AIジャッジが議論を採点し、勝者を選びます。

MCPサーバーがClaude Codeに永続メモリと検索スコアリングを追加
開発者が「engram-mcp」というMCPサーバーを構築し、Claude Codeにセッションやプロジェクトを超えた永続的な記憶を提供しています。このシステムは、結果の成功に基づく自動的な検索スコアリングと、古くなった知識の検出機能を備えています。