ESP32-S3 & MiniClawで作る猫監視Discordボット

猫の監視のためのエッジエージェントセットアップ

開発者は、ESP32-S3 Senseをエッジエージェントとして使用して猫を監視するDiscordボットを作成しました。このシステムは、Discordのメンションによってトリガーされると写真を撮影または音声を録音し、その後マルチモーダルLLMにメディアを送信して分析を行います。

ハードウェアとソフトウェアスタック

実装には以下の特定のコンポーネントが使用されています：

ハードウェア： XIAO ESP32-S3 Sense（Visionバージョン） - キャットツリーに隠せるほど小型
通信： Web UI + WebSocketセットアップによる低遅延デバッグ
AIモデル： Zhipu AIのVLM-4Vマルチモーダルモデル
プラットフォーム： ボットインタラクション用のDiscord

仕組み

ワークフローはシンプルです：誰かがDiscordでボットを@メンションすると、ESP32-S3が写真を撮影するか音声を録音します。このメディアはVLM（Vision-Language Model）に送信され、分析された後、何が起こっているかの自然言語による説明を返します。ユーザーは「動きを検出しました」というスパムではなく、「あなたの猫がソファで寝ています」や「猫がおもちゃで遊んでいます」といった具体的な説明を受け取ります。