「私の執事になって」:AIコード検証のためのマルチエージェントパイプライン

Be My Butlerの機能
Be My Butler(BMB)は、AI支援コーディングにおける特定の問題、つまりAIコーディングエージェントが自身のコードを誤って動作していると報告する問題を解決するために設計されたマルチエージェントパイプラインです。プログラミングのバックグラウンドを持たない材料・機械エンジニアである作成者は、Claude Codeエージェントがテストを通過したが実際には動作しないコードを書く経験をした後にこれを構築しました。
核となるコンセプト
このシステムは、AI生成コードのためのピアレビューモデルを実装しています:
- 1つのモデルがコードを書く
- 別のモデルが誰が書いたかを知らずにレビューする(ブラインド検証)
- クロスモデル評議会(Claude + GPT + Gemini)が実際に動作するかどうかを投票する
- アナリストエージェントが問題のパターンを追跡する
パフォーマンス指標
テストから:
- シングルエージェントの自己レビューは、実際の問題の約40%を検出
- クロスモデルブラインドレビューは、約85%を検出
- コストオーバーヘッド:トークン数が15〜20%増加
v0.2の機能
- トークン使用量とコストを追跡する分析ダッシュボード
- 自動化されたコードレビューパターンのためのアナリストエージェント
- アーキテクチャ決定のためのコンサルタントエージェント
- 改良されたtmuxベースのオーケストレーション
インストールと使用方法
MITライセンスの下で完全にオープンソースです。インストール:
git clone https://github.com/project820/be-my-butler.git
cd be-my-butler && ./install.sh
bmb "build a REST API with auth"このツールは特に「バイブコーダー」、つまり従来のコーディング経験がなく、コード品質評価をAIに依存している人々にとって有用です。自分で問題を見つけるためにコードを読むことができない場合、複数のモデルが互いにクロスチェックすることで、シングルエージェントシステムにはない検証が提供されます。
📖 Read the full source: r/ClaudeAI
👀 See Also

MCPマーケットプレイス、1,900以上のMCPツールプラグインをセキュリティスキャン済みディレクトリとして公開
MCP Marketplace(mcp-marketplace.io)は、1,900以上のMCPサーバーを対象としたセキュリティ重視のディレクトリを提供し、多層セキュリティ分析、リスクスコアリング、Claude Desktop、Cursor、ChatGPT、VS Code向けのワンクリックインストールを実現しています。

エージェント・ウェイクスキル for OpenClaw: タスク完了時にDiscordに通知
開発者がagent-wake.pyというPythonスクリプトを作成しました。これはClaude Codeがタスク終了後に呼び出すもので、Discordに通知を送信し、ゲートウェイHTTP APIを通じてウェイクイベントを発火させ、エージェントが自動的に要約を投稿するように促します。

Claude Code Karma:Claude Codeセッションのためのローカル可視化ダッシュボード
Claude Code Karmaは、~/.claude/のJSONLファイルを解析してClaude Codeセッションデータを可視化し、ツール使用状況を追跡し、サイレント障害を監視するオープンソースのローカルダッシュボードです。FastAPI、Svelte-Kit 2、Svelte 5、SQLiteで構築されており、完全なセッションタイムラインとライブ追跡を提供します。

AI円卓会議:構造化された質問で200以上のAIモデルを比較するツール
AIラウンドテーブルは、ユーザーが回答オプションを定義した質問を投げかけ、200以上のモデルから最大50個を選択し、同一条件下で構造化された回答を得られる無料ツールです。また、モデルが互いの推論を見られる議論機能や、トランスクリプトを要約するレビュアーモデルも含まれています。