AIコード検証のマルチエージェントパイプライン「Be My Butler」とは

Be My Butlerの機能

Be My Butler（BMB）は、AI支援コーディングにおける特定の問題、つまりAIコーディングエージェントが自身のコードを誤って動作していると報告する問題を解決するために設計されたマルチエージェントパイプラインです。プログラミングのバックグラウンドを持たない材料・機械エンジニアである作成者は、Claude Codeエージェントがテストを通過したが実際には動作しないコードを書く経験をした後にこれを構築しました。

核となるコンセプト

このシステムは、AI生成コードのためのピアレビューモデルを実装しています：

1つのモデルがコードを書く
別のモデルが誰が書いたかを知らずにレビューする（ブラインド検証）
クロスモデル評議会（Claude + GPT + Gemini）が実際に動作するかどうかを投票する
アナリストエージェントが問題のパターンを追跡する

パフォーマンス指標

テストから：

シングルエージェントの自己レビューは、実際の問題の約40％を検出
クロスモデルブラインドレビューは、約85％を検出
コストオーバーヘッド：トークン数が15〜20％増加

v0.2の機能

トークン使用量とコストを追跡する分析ダッシュボード
自動化されたコードレビューパターンのためのアナリストエージェント
アーキテクチャ決定のためのコンサルタントエージェント
改良されたtmuxベースのオーケストレーション

インストールと使用方法

MITライセンスの下で完全にオープンソースです。インストール：

git clone https://github.com/project820/be-my-butler.git
cd be-my-butler && ./install.sh
bmb "build a REST API with auth"

このツールは特に「バイブコーダー」、つまり従来のコーディング経験がなく、コード品質評価をAIに依存している人々にとって有用です。自分で問題を見つけるためにコードを読むことができない場合、複数のモデルが互いにクロスチェックすることで、シングルエージェントシステムにはない検証が提供されます。

📖 Read the full source: r/ClaudeAI

「私の執事になって」：AIコード検証のためのマルチエージェントパイプライン

Be My Butlerの機能

核となるコンセプト

パフォーマンス指標

v0.2の機能

インストールと使用方法

👀 See Also

MCPマーケットプレイス、1,900以上のMCPツールプラグインをセキュリティスキャン済みディレクトリとして公開

エージェント・ウェイクスキル for OpenClaw: タスク完了時にDiscordに通知

Claude Code Karma：Claude Codeセッションのためのローカル可視化ダッシュボード

AI円卓会議：構造化された質問で200以上のAIモデルを比較するツール