Создание Discord-бота для мониторинга кота с использованием ESP32-S3, MiniClaw и мультимодального ИИ

✍️ OpenClawRadar📅 Опубликовано: 8 марта 2026 г.🔗 Source
Создание Discord-бота для мониторинга кота с использованием ESP32-S3, MiniClaw и мультимодального ИИ
Ad

Настройка периферийного агента для наблюдения за кошкой

Разработчик создал бота для Discord, который наблюдает за его кошкой, используя ESP32-S3 Sense в качестве периферийного агента. Система делает фотографии или записывает аудио при активации через упоминания в Discord, а затем отправляет медиафайлы в мультимодальную LLM для анализа.

Аппаратное и программное обеспечение

В реализации используются следующие компоненты:

  • Аппаратное обеспечение: XIAO ESP32-S3 Sense (версия Vision) — достаточно маленький, чтобы спрятать в кошачьем дереве
  • Связь: Веб-интерфейс + настройка WebSocket для отладки с низкой задержкой
  • ИИ-модель: Мультимодальная модель VLM-4V от Zhipu AI
  • Платформа: Discord для взаимодействия с ботом

Как это работает

Рабочий процесс прост: когда кто-то упоминает бота в Discord, ESP32-S3 либо делает снимок, либо записывает аудио. Эти медиафайлы отправляются в VLM (Vision-Language Model), которая анализирует их и возвращает описания на естественном языке о происходящем. Вместо спама "Обнаружено движение" пользователи получают конкретные описания, например, "Ваша кошка спит на диване" или "Кошка играет с игрушкой".

Ad

Текущие ограничения и планы на будущее

Разработчик выделил несколько областей для улучшения:

  • Качество изображения: Текущие снимки "довольно размытые" и "посредственные", но функциональные
  • Фиксированное положение: Устройство имеет фиксированный угол обзора — рассматривается добавление мобильности через сервоприводы или механику ровера
  • Аудиоинтеллект: Планируется добавить классификацию вокализаций, чтобы отличать голодное мяуканье, беготню или общие крики

Разработчик отмечает, что реализация была "удивительно простой" и работает лучше, чем ожидалось, причём анализ VLM оказывается "удивительно точным", несмотря на размытое качество изображения.

📖 Read the full source: r/openclaw

Ad

👀 Смотрите также

Анализ 7 лет дневниковых записей с помощью LLM: провалы RAG и тонкой настройки
Кейсы

Анализ 7 лет дневниковых записей с помощью LLM: провалы RAG и тонкой настройки

Ведя дневник с 2019 года, разработчик передал более 200 записей LLM для поиска закономерностей — RAG не сработал, тонкая настройка не сработала, и конфиденциальность была ограничением. Итоговый подход выявил циклические жизненные уроки каждые два года.

OpenClawRadar
Пользователь узнает о диагнозе гипоксически-ишемической энцефалопатии через разговор с Claude.
Кейсы

Пользователь узнает о диагнозе гипоксически-ишемической энцефалопатии через разговор с Claude.

22-летний житель Сан-Паулу использовал Claude для выявления гипоксически-ишемической энцефалопатии после 22 лет ошибочных диагнозов. ИИ помог связать осложнения при родах с устойчивыми когнитивными симптомами, которые не соответствовали аутизму.

OpenClawRadar
Использование ИИ для распутывания 10 000 бразильских прав собственности: технический кейс-стади
Кейсы

Использование ИИ для распутывания 10 000 бразильских прав собственности: технический кейс-стади

Бразильская компания по недвижимости использует Claude, Gemini 3.1 Pro и инструменты OCR для анализа 10 000 прав собственности с десятилетиями несоответствий, включая дублирующиеся продажи, мошеннические контракты и 500 активных судебных процессов.

OpenClawRadar
Использование MCP-серверов для подключения Claude к живым базам данных для анализа по запросу
Кейсы

Использование MCP-серверов для подключения Claude к живым базам данных для анализа по запросу

Разработчик создал MCP-сервер для CybersecTools, подключив Claude к базе данных из 10 000+ продуктов кибербезопасности, что позволяет проводить анализ данных в реальном времени вместо использования традиционных дашбордов. Сервер предоставляет 40 инструментов для сравнения поставщиков, анализа рыночных категорий и проверки соответствия NIST CSF 2.0.

OpenClawRadar