ESP32-S3 Discord-бот для мониторинга кота с мультимодальным ИИ

Настройка периферийного агента для наблюдения за кошкой

Разработчик создал бота для Discord, который наблюдает за его кошкой, используя ESP32-S3 Sense в качестве периферийного агента. Система делает фотографии или записывает аудио при активации через упоминания в Discord, а затем отправляет медиафайлы в мультимодальную LLM для анализа.

Аппаратное и программное обеспечение

В реализации используются следующие компоненты:

Аппаратное обеспечение: XIAO ESP32-S3 Sense (версия Vision) — достаточно маленький, чтобы спрятать в кошачьем дереве
Связь: Веб-интерфейс + настройка WebSocket для отладки с низкой задержкой
ИИ-модель: Мультимодальная модель VLM-4V от Zhipu AI
Платформа: Discord для взаимодействия с ботом

Как это работает

Рабочий процесс прост: когда кто-то упоминает бота в Discord, ESP32-S3 либо делает снимок, либо записывает аудио. Эти медиафайлы отправляются в VLM (Vision-Language Model), которая анализирует их и возвращает описания на естественном языке о происходящем. Вместо спама "Обнаружено движение" пользователи получают конкретные описания, например, "Ваша кошка спит на диване" или "Кошка играет с игрушкой".

Текущие ограничения и планы на будущее

Разработчик выделил несколько областей для улучшения:

Качество изображения: Текущие снимки "довольно размытые" и "посредственные", но функциональные
Фиксированное положение: Устройство имеет фиксированный угол обзора — рассматривается добавление мобильности через сервоприводы или механику ровера
Аудиоинтеллект: Планируется добавить классификацию вокализаций, чтобы отличать голодное мяуканье, беготню или общие крики

Разработчик отмечает, что реализация была "удивительно простой" и работает лучше, чем ожидалось, причём анализ VLM оказывается "удивительно точным", несмотря на размытое качество изображения.

📖 Read the full source: r/openclaw

Создание Discord-бота для мониторинга кота с использованием ESP32-S3, MiniClaw и мультимодального ИИ

Настройка периферийного агента для наблюдения за кошкой

Аппаратное и программное обеспечение

Как это работает

Текущие ограничения и планы на будущее

👀 Смотрите также

ИТ-панель на базе OpenClaw создаёт заявки из чат-переписок.

Разработчик делится проблемой стоимости токенов в ERP-системе, созданной с помощью Claude.

Разработчик внедряет цикл обратной связи, готовый к использованию ИИ, для выпуска функций.

Практическая критика памяти LLM: неизменяемые отражения и эфемерные сессии как решения