Seien Sie mein Butler: Multi-Agenten-Pipeline zur Überprüfung von KI-Code

Was Be My Butler tut
Be My Butler (BMB) ist eine Multi-Agent-Pipeline, die ein spezifisches Problem beim KI-gestützten Programmieren löst: wenn KI-Coding-Agenten ihren eigenen Code fälschlicherweise als funktionierend melden. Der Entwickler, ein Werkstoff-/Maschinenbauingenieur ohne Programmierhintergrund, baute dies, nachdem er erlebt hatte, dass Claude-Code-Agenten Code schrieben, der Tests bestand, aber in der Praxis nicht wirklich funktionierte.
Kernkonzept
Das System implementiert ein Peer-Review-Modell für KI-generierten Code:
- Ein Modell schreibt den Code
- Ein anderes Modell überprüft ihn, ohne zu wissen, wer ihn geschrieben hat (blinde Verifizierung)
- Ein Cross-Model-Rat (Claude + GPT + Gemini) stimmt darüber ab, ob er tatsächlich funktioniert
- Ein Analysten-Agent verfolgt Muster bei Fehlern
Leistungsmetriken
Aus Tests:
- Einzelagenten-Selbstüberprüfung erkennt ~40 % der echten Probleme
- Cross-Model-Blinüberprüfung erkennt ~85 %
- Kostenmehraufwand: 15–20 % mehr Tokens
v0.2-Funktionen
- Analytics-Dashboard zur Verfolgung von Token-Nutzung und Kosten
- Analysten-Agent für automatisierte Code-Review-Muster
- Berater-Agent für Architekturentscheidungen
- Verbesserte tmux-basierte Orchestrierung
Installation und Nutzung
Vollständig Open Source unter MIT-Lizenz. Installation:
git clone https://github.com/project820/be-my-butler.git
cd be-my-butler && ./install.sh
bmb "build a REST API with auth"Das Tool ist besonders nützlich für "Vibe-Coder" – Menschen ohne traditionelle Programmiererfahrung, die auf KI für die Code-Qualitätsbewertung angewiesen sind. Wenn man Code nicht selbst lesen kann, um Probleme zu erkennen, bietet die gegenseitige Überprüfung durch mehrere Modelle eine Verifizierung, die Einzelagenten-Systemen fehlt.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

OpenClaw-Modellleistungsüberprüfung: Codex 5.3 führt, GLM-Modelle enttäuschen
Ein Entwickler testete mehrere KI-Modelle mit OpenClaw und fand heraus, dass Codex 5.3 mit einer Bewertung von 9/10 am besten abschneidet, während GLM 4.7 und GLM 5 mit 5/10 bewertet wurden, was auf hohen Token-Verbrauch, langsame Antworten und inkonsistente Ausgaben zurückzuführen ist.

Open-Source-System für ein zweites Gehirn, basierend auf Claude Code, für Aufgabenmanagement
Ein Open-Source-System namens Kipi System nutzt Claude Code, um offene Threads zu verfolgen, Nachverfolgungen zu entwerfen und Aufgaben zu verwalten, indem es Daten aus Kalender, E-Mail, CRM und Social-Feeds abruft. Es erzeugt eine tägliche HTML-Datei mit vorgefertigten Aktionen, sortiert nach Aufwand.

LobsterBoard fügt Themesystem und Vorlagen-Galerie hinzu
LobsterBoard umfasst nun ein Themesystem mit fünf visuellen Optionen und eine Vorlagengalerie, die es Nutzern ermöglicht, Dashboard-Layouts zu exportieren und zu importieren, wobei sensible Daten automatisch entfernt werden.

MAGELLAN: Ein 15-Agenten-Autonomes Wissenschaftliches Entdeckungssystem, das auf Claude Code aufbaut
MAGELLAN ist ein 15-Agenten-System zur autonomen wissenschaftlichen Entdeckung, das vollständig auf Claude Code aufbaut. Es nutzt Opus für tiefgehende Schlussfolgerungen und Sonnet für strukturierte Aufgaben, generiert interdisziplinäre Hypothesen ohne menschliche Anleitung, mit 260 vorgeschlagenen Hypothesen, von denen 60% durch adversarische Validierung in 19 Sitzungen verworfen wurden.