Seien Sie mein Butler: Multi-Agenten-Pipeline zur Überprüfung von KI-Code

✍️ OpenClawRadar📅 Veröffentlicht: 14. März 2026🔗 Source

Was Be My Butler tut

Be My Butler (BMB) ist eine Multi-Agent-Pipeline, die ein spezifisches Problem beim KI-gestützten Programmieren löst: wenn KI-Coding-Agenten ihren eigenen Code fälschlicherweise als funktionierend melden. Der Entwickler, ein Werkstoff-/Maschinenbauingenieur ohne Programmierhintergrund, baute dies, nachdem er erlebt hatte, dass Claude-Code-Agenten Code schrieben, der Tests bestand, aber in der Praxis nicht wirklich funktionierte.

Kernkonzept

Das System implementiert ein Peer-Review-Modell für KI-generierten Code:

Ein Modell schreibt den Code
Ein anderes Modell überprüft ihn, ohne zu wissen, wer ihn geschrieben hat (blinde Verifizierung)
Ein Cross-Model-Rat (Claude + GPT + Gemini) stimmt darüber ab, ob er tatsächlich funktioniert
Ein Analysten-Agent verfolgt Muster bei Fehlern

Leistungsmetriken

Aus Tests:

Einzelagenten-Selbstüberprüfung erkennt ~40 % der echten Probleme
Cross-Model-Blinüberprüfung erkennt ~85 %
Kostenmehraufwand: 15–20 % mehr Tokens

v0.2-Funktionen

Analytics-Dashboard zur Verfolgung von Token-Nutzung und Kosten
Analysten-Agent für automatisierte Code-Review-Muster
Berater-Agent für Architekturentscheidungen
Verbesserte tmux-basierte Orchestrierung

Installation und Nutzung

Vollständig Open Source unter MIT-Lizenz. Installation:

git clone https://github.com/project820/be-my-butler.git
cd be-my-butler && ./install.sh
bmb "build a REST API with auth"

Das Tool ist besonders nützlich für "Vibe-Coder" – Menschen ohne traditionelle Programmiererfahrung, die auf KI für die Code-Qualitätsbewertung angewiesen sind. Wenn man Code nicht selbst lesen kann, um Probleme zu erkennen, bietet die gegenseitige Überprüfung durch mehrere Modelle eine Verifizierung, die Einzelagenten-Systemen fehlt.

📖 Read the full source: r/ClaudeAI

👀 Siehe auch

Werkzeuge

Skales: Ein Desktop-AI-Agent, der sich ohne Docker mit Ollama verbindet

Skales ist ein Desktop-AI-Agent, der sich lokal mit Ollama verbindet und keine Docker-Einrichtung erfordert. Er bietet Funktionen wie E-Mail-Verwaltung über Gmail IMAP, Browser-Automatisierung und Sprach-Chat mit Whisper über Groq.

16. März 2026, 10:45 UTC

OpenClawRadar

Werkzeuge

Pilot Shell: Eine strukturierte Workflow-Schicht für Claude Code

Pilot Shell fügt spezifikationsgesteuerte TDD-Workflows, Qualitäts-Hooks, Context Engineering und Token-Optimierung auf Basis von Claude Code hinzu – ohne die Komplexität von Multi-Agenten-Frameworks.

4. Mai 2026, 14:18 UTC

OpenClawRadar

Werkzeuge

Tangent: Chrome-Erweiterung zum Verzweigen von Claude-Gespraechen

Kostenlose Open-Source-Erweiterung zum Oeffnen von Seitenthreads in Claude ohne den Platz zu verlieren.

7. Feb. 2026, 20:35 UTC

OpenClaw Radar

Werkzeuge

context-link v1.0.0: Lokaler MCP-Server reduziert Claude Code Token-Verbrauch um 91%

context-link v1.0.0 ist ein lokaler MCP-Server, der Codebasen mit Tree-sitter indiziert, um Claude nur die benötigten Symbole, Abhängigkeiten und Strukturen bereitzustellen, was den Token-Verbrauch in bestimmten Fällen um 91 % und bei vollständigen Aufgaben um 70–80 % reduziert.

30. März 2026, 20:45 UTC

OpenClawRadar