Be My Butler: AI 코드 검증을 위한 멀티 에이전트 파이프라인

Be My Butler의 기능
Be My Butler(BMB)는 AI 지원 코딩에서 특정 문제를 해결하기 위해 설계된 멀티 에이전트 파이프라인입니다: AI 코딩 에이전트가 자신의 코드가 작동한다고 잘못 보고하는 문제입니다. 프로그래밍 배경이 없는 재료/기계 엔지니어인 창작자는 Claude Code 에이전트가 테스트를 통과했지만 실제로 작동하지 않는 코드를 작성하는 경험을 한 후 이를 구축했습니다.
핵심 개념
이 시스템은 AI 생성 코드에 대한 동료 검토 모델을 구현합니다:
- 한 모델이 코드를 작성합니다
- 다른 모델이 누가 작성했는지 모르는 상태에서 검토합니다(블라인드 검증)
- 교차 모델 위원회(Claude + GPT + Gemini)가 실제로 작동하는지 투표합니다
- 분석 에이전트가 문제 발생 패턴을 추적합니다
성능 지표
테스트 결과:
- 단일 에이전트 자체 검토는 실제 문제의 약 40%를 발견합니다
- 교차 모델 블라인드 검토는 약 85%를 발견합니다
- 비용 오버헤드: 15-20% 더 많은 토큰
v0.2 기능
- 토큰 사용량과 비용을 추적하는 분석 대시보드
- 자동화된 코드 검토 패턴을 위한 분석 에이전트
- 아키텍처 결정을 위한 컨설턴트 에이전트
- 개선된 tmux 기반 오케스트레이션
설치 및 사용법
MIT 라이선스 하에 완전 오픈소스입니다. 설치 방법:
git clone https://github.com/project820/be-my-butler.git
cd be-my-butler && ./install.sh
bmb "build a REST API with auth"이 도구는 특히 "바이브 코더" - 코드 품질 평가를 위해 AI에 의존하는 전통적인 코딩 경험이 없는 사람들에게 유용합니다. 문제를 직접 발견하기 위해 코드를 읽을 수 없을 때, 여러 모델이 서로 교차 검사하는 것은 단일 에이전트 시스템이 부족한 검증을 제공합니다.
📖 전체 소스 읽기: r/ClaudeAI
👀 See Also

Relvy는 OpenRCA 벤치마크에서 Claude의 근본 원인 분석 정확도를 12%포인트 향상시킵니다.
런북을 자동화하는 도구인 Relvy가 근본 원인 분석을 위한 OpenRCA 벤치마크에서 Claude의 정확도를 12% 포인트 향상시켰음을 입증했습니다. 이 결과는 11포인트를 받은 Hacker News 게시물을 통해 공유되었습니다.

AutoDream: 안전 기능이 포함된 Claude Code용 11-후크 메모리 시스템
AutoDream은 Claude Code에 프로젝트 메모리 지속성과 명령어 안전성을 추가하는 오픈소스 도구입니다. 6개 이벤트에 걸쳐 11개의 훅을 사용하여 컨텍스트를 주입하고, 위험한 명령어를 차단하며, /compact 작업을 견뎌냅니다.

SkyClaw: Rust로 작성된 오픈 에이전트 런타임
SkyClaw는 Rust로 작성된 오픈소스 에이전트 런타임으로, 7개 개발 단계에 걸쳐 34개의 새로운 기능을 포함합니다. 여기에는 작업 체크포인팅, SQLite 기반 영구 큐, 병렬 도구 실행, 멀티테넌시 지원 등이 포함됩니다.

OpenClaw 기술로 접근성 트리 토큰을 60만 개에서 1,300개로 줄였습니다
개발자가 접근성 트리에서 토큰 과다 문제를 해결하는 OpenClaw 스킬을 만들었습니다. 이 스킬은 머신러닝 기반 요소 순위 매기기를 사용해 LLM에 데이터를 보내기 전에 요소를 정리합니다.