Создание Discord-бота для мониторинга кота с использованием ESP32-S3, MiniClaw и мультимодального ИИ

Настройка периферийного агента для наблюдения за кошкой
Разработчик создал бота для Discord, который наблюдает за его кошкой, используя ESP32-S3 Sense в качестве периферийного агента. Система делает фотографии или записывает аудио при активации через упоминания в Discord, а затем отправляет медиафайлы в мультимодальную LLM для анализа.
Аппаратное и программное обеспечение
В реализации используются следующие компоненты:
- Аппаратное обеспечение: XIAO ESP32-S3 Sense (версия Vision) — достаточно маленький, чтобы спрятать в кошачьем дереве
- Связь: Веб-интерфейс + настройка WebSocket для отладки с низкой задержкой
- ИИ-модель: Мультимодальная модель VLM-4V от Zhipu AI
- Платформа: Discord для взаимодействия с ботом
Как это работает
Рабочий процесс прост: когда кто-то упоминает бота в Discord, ESP32-S3 либо делает снимок, либо записывает аудио. Эти медиафайлы отправляются в VLM (Vision-Language Model), которая анализирует их и возвращает описания на естественном языке о происходящем. Вместо спама "Обнаружено движение" пользователи получают конкретные описания, например, "Ваша кошка спит на диване" или "Кошка играет с игрушкой".
Текущие ограничения и планы на будущее
Разработчик выделил несколько областей для улучшения:
- Качество изображения: Текущие снимки "довольно размытые" и "посредственные", но функциональные
- Фиксированное положение: Устройство имеет фиксированный угол обзора — рассматривается добавление мобильности через сервоприводы или механику ровера
- Аудиоинтеллект: Планируется добавить классификацию вокализаций, чтобы отличать голодное мяуканье, беготню или общие крики
Разработчик отмечает, что реализация была "удивительно простой" и работает лучше, чем ожидалось, причём анализ VLM оказывается "удивительно точным", несмотря на размытое качество изображения.
📖 Read the full source: r/openclaw
👀 Смотрите также

Анализ 7 лет дневниковых записей с помощью LLM: провалы RAG и тонкой настройки
Ведя дневник с 2019 года, разработчик передал более 200 записей LLM для поиска закономерностей — RAG не сработал, тонкая настройка не сработала, и конфиденциальность была ограничением. Итоговый подход выявил циклические жизненные уроки каждые два года.

Пользователь узнает о диагнозе гипоксически-ишемической энцефалопатии через разговор с Claude.
22-летний житель Сан-Паулу использовал Claude для выявления гипоксически-ишемической энцефалопатии после 22 лет ошибочных диагнозов. ИИ помог связать осложнения при родах с устойчивыми когнитивными симптомами, которые не соответствовали аутизму.

Использование ИИ для распутывания 10 000 бразильских прав собственности: технический кейс-стади
Бразильская компания по недвижимости использует Claude, Gemini 3.1 Pro и инструменты OCR для анализа 10 000 прав собственности с десятилетиями несоответствий, включая дублирующиеся продажи, мошеннические контракты и 500 активных судебных процессов.

Использование MCP-серверов для подключения Claude к живым базам данных для анализа по запросу
Разработчик создал MCP-сервер для CybersecTools, подключив Claude к базе данных из 10 000+ продуктов кибербезопасности, что позволяет проводить анализ данных в реальном времени вместо использования традиционных дашбордов. Сервер предоставляет 40 инструментов для сравнения поставщиков, анализа рыночных категорий и проверки соответствия NIST CSF 2.0.