OpenClaw Alexa Voice Proxy：双方向音声インタラクションを実現する高速プロキシ

openclaw-alexa-voiceは、AlexaカスタムスキルをOpenClawゲートウェイに接続するNode.jsプロキシで、メール、カレンダー、財務などのツールへの完全なアクセスを可能にしながら音声インタラクションを実現します。このシステムは、さまざまな種類のクエリを効率的に処理するために3段階の応答アーキテクチャを実装しています。

3段階応答システム

プロキシは、複雑さと処理時間に基づいて応答を3つのパスに分類します：

高速パス（<1秒） – 時間、日付、カスタムAPIなどのシンプルなクエリを処理
エージェントパス（<12秒） – AIメモリからの迅速な回答を提供
遅延パス（<2分） – 複雑なクエリを非同期で処理し、Home Assistant TTSを介して任意のスピーカーで再生

仕組み

クエリがツールアクセス（メール、ウェブ検索、市場データ）を必要とする場合、Alexaは「確認します」と応答してセッションを閉じます。プロキシはその後、クエリを完全なツールアクセスを持つOpenClawのメインセッションに送信し、最大2分間待機し、マークダウン形式を除去し、Home AssistantのAlexa Media Player統合を介して任意のEchoまたはSonosデバイスで応答を再生します。

主な機能

音声PIN認証（1時間セッション）
マルチスピーカーTTSルーティング（任意のEcho、Sonos、スピーカーグループ）
カスタムAPI用の拡張可能な高速応答システム
TTS失敗時のTelegramフォールバック
Alexaリクエスト署名検証
レート制限と監査ログ
セキュリティのためのlocalhostのみへのバインド

技術スタック

この実装では、プロキシにNode.js、音声インターフェースにAlexaカスタムスキル、通信にOpenClawゲートウェイWebSocket、TTS再生にHome Assistantを使用しています。このアプローチにより、開発者はOpenClawインスタンスに音声機能を拡張しながら、ローカルバインドと認証によるセキュリティを維持できます。

このプロジェクトはディスカッション#11154に触発され、OpenClawセットアップに音声インタラクションを追加したい開発者向けにオープンソースとして公開されています。3段階システムにより、応答性の高い音声インタラクションを確保しつつ、複雑なクエリでもOpenClawの完全なツール機能を活用できます。

📖 完全なソースを読む： r/openclaw