Apple Silicon向けAIエージェントのローカル音声コントロール設定

このセットアップでは、Parakeet STTとKokoro TTSをApple Silicon(具体的にはMac Mini M4でテスト済み)で使用して、AIエージェントのローカル音声制御を実装する方法について詳しく説明します。目的は、クラウドサービスへの依存を排除し、完全にローカルで高速な音声対話レイヤーを実現することでした。
主な詳細
- ハードウェア: OpenClaw + ClaudeをAIエージェントとして実行するMac Mini M4。
- ソフトウェア設定: 音声入力を約240msで文字起こしする音声認識(STT)用のParakeetと、ほぼ瞬時に応答を提供する音声合成(TTS)用のKokoro。
- 利点: タイピングから音声コマンドへの移行により、ワークフローの柔軟性が大幅に向上し、バルコニーや犬の散歩中など、オフィスに依存しない操作が可能になります。
- 課題: 時折、STTがアクセントの認識に苦労し、ユーザーの発音をAIエージェントが修正するというユーモラスな状況が発生することがあります。
- 拡張機能: Mimoraという3Dアバターを組み込んだブラウザ拡張機能により、視覚的な対話が可能になり、エージェントの応答中に「聞いている」「考えている」「嬉しい」などの様々な表情を表示します。
この構成は、特にApple Siliconハードウェアを使用して、クラウドに依存しない高速な音声対話をAIエージェントと行いたい人に最適です。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

Warp ターミナルがエージェンティック開発環境とともにオープンソース化
Warpがオープンソース化され、エージェンティック開発環境としてリブランド。内蔵コーディングエージェントと、Claude Code、Codex、Gemini CLIなどの独自CLIエージェントのサポートを提供。

ハイブリッド検索とRRFにより、純粋なベクトル検索を超えるAIメモリシステムが向上します。
PostgreSQLとpgvectorを使用したオープンソースのAIメモリシステムは、完全一致の検索において純粋なベクトル検索が不十分であることを発見し、全文検索を追加し、k=60の相互順位融合(RRF)で結果を統合しました。さらに、トークナイザーによるクエリ拡張も行っています。

NemoClawサンドボックス隔離を回避してローカルNemotron 9Bエージェントを実行する
開発者がNemoClawのサンドボックス分離を回避し、単一のRTX 5090でNemotron 9Bとツール呼び出し機能を使用した完全ローカルエージェントを実行する方法を確立しました。このアプローチには、iptablesの設定、カスタムTCPリレー、リアルタイムのツール呼び出し翻訳が含まれています。

ソリティア:AIエージェント向けオープンソースアイデンティティ基盤
ソリティアは、AIエージェント向けのオープンソースのアイデンティティ基盤であり、単なる記憶の想起だけでなく、エージェントが時間の経過とともにユーザーとの作業関係をどのように改善するかに焦点を当てています。ローカルファーストでモデルに依存せず、pip install solitaire-ai で利用可能です。