Seien Sie mein Butler: Multi-Agenten-Pipeline zur Überprüfung von KI-Code

Was Be My Butler tut
Be My Butler (BMB) ist eine Multi-Agent-Pipeline, die ein spezifisches Problem beim KI-gestützten Programmieren löst: wenn KI-Coding-Agenten ihren eigenen Code fälschlicherweise als funktionierend melden. Der Entwickler, ein Werkstoff-/Maschinenbauingenieur ohne Programmierhintergrund, baute dies, nachdem er erlebt hatte, dass Claude-Code-Agenten Code schrieben, der Tests bestand, aber in der Praxis nicht wirklich funktionierte.
Kernkonzept
Das System implementiert ein Peer-Review-Modell für KI-generierten Code:
- Ein Modell schreibt den Code
- Ein anderes Modell überprüft ihn, ohne zu wissen, wer ihn geschrieben hat (blinde Verifizierung)
- Ein Cross-Model-Rat (Claude + GPT + Gemini) stimmt darüber ab, ob er tatsächlich funktioniert
- Ein Analysten-Agent verfolgt Muster bei Fehlern
Leistungsmetriken
Aus Tests:
- Einzelagenten-Selbstüberprüfung erkennt ~40 % der echten Probleme
- Cross-Model-Blinüberprüfung erkennt ~85 %
- Kostenmehraufwand: 15–20 % mehr Tokens
v0.2-Funktionen
- Analytics-Dashboard zur Verfolgung von Token-Nutzung und Kosten
- Analysten-Agent für automatisierte Code-Review-Muster
- Berater-Agent für Architekturentscheidungen
- Verbesserte tmux-basierte Orchestrierung
Installation und Nutzung
Vollständig Open Source unter MIT-Lizenz. Installation:
git clone https://github.com/project820/be-my-butler.git
cd be-my-butler && ./install.sh
bmb "build a REST API with auth"Das Tool ist besonders nützlich für "Vibe-Coder" – Menschen ohne traditionelle Programmiererfahrung, die auf KI für die Code-Qualitätsbewertung angewiesen sind. Wenn man Code nicht selbst lesen kann, um Probleme zu erkennen, bietet die gegenseitige Überprüfung durch mehrere Modelle eine Verifizierung, die Einzelagenten-Systemen fehlt.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Skales: Ein Desktop-AI-Agent, der sich ohne Docker mit Ollama verbindet
Skales ist ein Desktop-AI-Agent, der sich lokal mit Ollama verbindet und keine Docker-Einrichtung erfordert. Er bietet Funktionen wie E-Mail-Verwaltung über Gmail IMAP, Browser-Automatisierung und Sprach-Chat mit Whisper über Groq.

Pilot Shell: Eine strukturierte Workflow-Schicht für Claude Code
Pilot Shell fügt spezifikationsgesteuerte TDD-Workflows, Qualitäts-Hooks, Context Engineering und Token-Optimierung auf Basis von Claude Code hinzu – ohne die Komplexität von Multi-Agenten-Frameworks.

Tangent: Chrome-Erweiterung zum Verzweigen von Claude-Gespraechen
Kostenlose Open-Source-Erweiterung zum Oeffnen von Seitenthreads in Claude ohne den Platz zu verlieren.

context-link v1.0.0: Lokaler MCP-Server reduziert Claude Code Token-Verbrauch um 91%
context-link v1.0.0 ist ein lokaler MCP-Server, der Codebasen mit Tree-sitter indiziert, um Claude nur die benötigten Symbole, Abhängigkeiten und Strukturen bereitzustellen, was den Token-Verbrauch in bestimmten Fällen um 91 % und bei vollständigen Aufgaben um 70–80 % reduziert.