OpenClawでローカルLLM音声アシスタント構築：Alexa連携とサブ秒応答

ある開発者が、OpenClawをAIエージェントのバックボーンとして使用し、音声インタラクションにAlexaを統合し、コスト効率の良いクエリ処理にローカルLLMを活用した音声ファーストアシスタントの実装を共有しました。

仕組み

このシステムは、カスタムAlexaスキルに対して「Alexa、Lucyを開けて」と話しかけることで起動します。クエリは4段階のルーティングシステムで処理されます：

高速パス（0ms）：時刻、日付、およびハードコードされた応答を処理
OllamaローカルLLM（<1秒）：Apple Silicon搭載のMac Mini上で動作するQwen 2.5 3Bを使用した一般知識クエリの処理
Claudeエージェント（5-12秒）：個人のコンテキスト、記憶、複雑な推論を処理
遅延処理＋ツール（最大2分）：Home Assistant TTSを介したメール、ウェブ検索、データベースクエリの管理

応答は、Home Assistantのlast_called機能を介して自動検出された、クエリを開始した同じAlexaデバイスに返されます。このシステムは、Home Assistant上のPiper TTSを使用してSonosスピーカーでニューラルスペイン語音声を出力し、市場データ、カレンダー情報、ビジネス指標を含む朝のブリーフィングを提供できます。

技術スタック

OpenClaw：Telegram、Alexa、音声インターフェースをサポートするAIエージェントバックボーン
Alexaカスタムスキル：PIN認証とセッションチェーンを備えたNode.jsプロキシ
Ollama + Qwen 2.5 3B：約0.5秒の応答を提供するローカルLLM
Home Assistant：Alexa Media Player、Piper TTS、デバイスルーティングを統合
Piper TTS：Sonosスピーカー用のニューラルスペイン語音声

主な実装詳細

開発者は、ローカルLLMを使用することで、Claudeを必要としない単純な質問に対してAPIコストを約80％削減できることを発見しました。ただし、ローカルモデルは「自由に幻覚を起こす」ことに気づき、ビジネスおよび金融関連のクエリにはバイパスフィルターを追加しました。

Alexaの音声認識がボトルネックと特定され、AMAZON.SearchQueryと複数のサンプル発話が精度向上に役立っています。認証には、Alexaが各呼び出しで新しいセッションを生成するため、sessionIdではなくuserIdを使用しています。開発者は、メモリ内のMapがプロキシの再起動時に維持されないため、認証情報をファイルに永続化しています。

プロキシコードはオープンソースとして公開されています：openclaw-alexa-voice。今後の計画には、ウェイクワード検出（「Hey Lucy」）、スマートホーム制御、存在に基づくスピーカールーティングが含まれます。

📖 全文を読む： r/openclaw