ESP32-S3, MiniClaw 및 멀티모달 AI를 활용한 디스코드 고양이 모니터링 봇 구축

고양이 모니터링을 위한 에이전트 설정
한 개발자가 ESP32-S3 Sense를 에지 에이전트로 사용해 고양이를 모니터링하는 Discord 봇을 만들었습니다. 이 시스템은 Discord 멘션을 통해 트리거되면 사진을 찍거나 오디오를 녹음한 후, 멀티모달 LLM으로 미디어를 전송해 분석합니다.
하드웨어 및 소프트웨어 스택
구현에는 다음과 같은 특정 구성 요소가 사용됩니다:
- 하드웨어: XIAO ESP32-S3 Sense (비전 버전) - 고양이 나무에 숨기기에 충분히 작음
- 통신: 낮은 지연 디버깅을 위한 웹 UI + WebSocket 설정
- AI 모델: Zhipu AI의 VLM-4V 멀티모달 모델
- 플랫폼: 봇 상호작용을 위한 Discord
작동 방식
워크플로는 간단합니다: 누군가 Discord에서 봇을 @멘션하면, ESP32-S3가 사진을 찍거나 오디오를 녹음합니다. 이 미디어는 VLM(비전-언어 모델)로 전송되어 분석되고, 무슨 일이 일어나고 있는지에 대한 자연어 설명을 반환합니다. 사용자는 "동작 감지됨" 스팸 대신 "고양이가 소파에서 자고 있습니다" 또는 "고양이가 장난감과 놀고 있습니다"와 같은 구체적인 설명을 받습니다.
현재 한계 및 향후 계획
개발자는 개선이 필요한 여러 영역을 확인했습니다:
- 이미지 품질: 현재 캡처는 "상당히 흐릿하고" "평범하지만" 기능적임
- 고정 위치: 장치가 고정된 시점을 가짐 - 서보 브래킷이나 로버 메커니즘을 통해 이동성 추가 고려 중
- 오디오 지능: 배고픈 야옹, 미친듯이 뛰어다니는 소리, 일반적인 울음소리를 구분하는 발성 분류 추가 계획 중
개발자는 구현이 "놀랍도록 간단했고" 예상보다 잘 작동하며, 흐릿한 이미지 품질에도 불구하고 VLM 분석이 "놀랍도록 정확하다"고 언급했습니다.
📖 전체 소스 읽기: r/openclaw
👀 See Also

개발자가 BDMA 접근법을 활용하여 Claude Code로 항공편 비교 도구를 구축합니다
비개발자가 Claude Code를 사용하여 BDMA(구축/디버그/측정/조정) 루프 접근법으로 easyscape.eu를 구축했습니다. 이 도구는 여러 출발 공항을 비교하고, 도로 통행료 및 주차와 같은 실제 비용을 통합하며, 가장 저렴한 항공권뿐만 아니라 가장 경제적인 출발 옵션을 보여줍니다.

리눅스에서 vLLM, Claude Code 및 gpt-oss-120b를 사용한 로컬 멀티 에이전트 설정
한 개발자가 vLLM을 Docker에서 사용하고, Claude Code를 로컬호스트를 가리키도록 오케스트레이션에 활용하며, gpt-oss-120b를 RTX Pro 6000 Blackwell MaxQ GPU와 듀얼 부팅 Ubuntu 환경에서 코딩 에이전트로 사용하여 8개의 에이전트가 동시에 작동하는 100% 로컬 병렬 멀티 에이전트 설정을 구축했습니다.

문서 컨텍스트와 함께 학습 멘토로 Claude 사용하기
개발자가 도구 문서를 컨텍스트에 입력하고 특정 프롬프트를 사용하여 작업 기반 멘토를 만드는 방법으로 Claude를 학습 도구로 활용하는 방법을 공유합니다. 이 접근 방식은 전통적인 강좌와 튜토리얼을 건너뛰고 즉각적인 피드백과 함께 실습 학습을 선호합니다.

개발자, Claude Code와 Mowgli로 3시간 만에 개인 OS 앱 구축
한 개발자가 AI 코딩 도구를 사용하여 3시간 이내에 롱기누스라는 개인 OS 애플리케이션을 구축한 과정을 기록했습니다. 이 앱은 여러 커뮤니케이션 플랫폼을 통합하고 AI 기반 조직 기능을 제공합니다.