Seien Sie mein Butler: Multi-Agenten-Pipeline zur Überprüfung von KI-Code

✍️ OpenClawRadar📅 Veröffentlicht: 14. März 2026🔗 Source
Seien Sie mein Butler: Multi-Agenten-Pipeline zur Überprüfung von KI-Code
Ad

Was Be My Butler tut

Be My Butler (BMB) ist eine Multi-Agent-Pipeline, die ein spezifisches Problem beim KI-gestützten Programmieren löst: wenn KI-Coding-Agenten ihren eigenen Code fälschlicherweise als funktionierend melden. Der Entwickler, ein Werkstoff-/Maschinenbauingenieur ohne Programmierhintergrund, baute dies, nachdem er erlebt hatte, dass Claude-Code-Agenten Code schrieben, der Tests bestand, aber in der Praxis nicht wirklich funktionierte.

Kernkonzept

Das System implementiert ein Peer-Review-Modell für KI-generierten Code:

  • Ein Modell schreibt den Code
  • Ein anderes Modell überprüft ihn, ohne zu wissen, wer ihn geschrieben hat (blinde Verifizierung)
  • Ein Cross-Model-Rat (Claude + GPT + Gemini) stimmt darüber ab, ob er tatsächlich funktioniert
  • Ein Analysten-Agent verfolgt Muster bei Fehlern

Leistungsmetriken

Aus Tests:

  • Einzelagenten-Selbstüberprüfung erkennt ~40 % der echten Probleme
  • Cross-Model-Blinüberprüfung erkennt ~85 %
  • Kostenmehraufwand: 15–20 % mehr Tokens
Ad

v0.2-Funktionen

  • Analytics-Dashboard zur Verfolgung von Token-Nutzung und Kosten
  • Analysten-Agent für automatisierte Code-Review-Muster
  • Berater-Agent für Architekturentscheidungen
  • Verbesserte tmux-basierte Orchestrierung

Installation und Nutzung

Vollständig Open Source unter MIT-Lizenz. Installation:

git clone https://github.com/project820/be-my-butler.git
cd be-my-butler && ./install.sh
bmb "build a REST API with auth"

Das Tool ist besonders nützlich für "Vibe-Coder" – Menschen ohne traditionelle Programmiererfahrung, die auf KI für die Code-Qualitätsbewertung angewiesen sind. Wenn man Code nicht selbst lesen kann, um Probleme zu erkennen, bietet die gegenseitige Überprüfung durch mehrere Modelle eine Verifizierung, die Einzelagenten-Systemen fehlt.

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch

OpenClaw-Modellleistungsüberprüfung: Codex 5.3 führt, GLM-Modelle enttäuschen
Werkzeuge

OpenClaw-Modellleistungsüberprüfung: Codex 5.3 führt, GLM-Modelle enttäuschen

Ein Entwickler testete mehrere KI-Modelle mit OpenClaw und fand heraus, dass Codex 5.3 mit einer Bewertung von 9/10 am besten abschneidet, während GLM 4.7 und GLM 5 mit 5/10 bewertet wurden, was auf hohen Token-Verbrauch, langsame Antworten und inkonsistente Ausgaben zurückzuführen ist.

OpenClawRadar
Open-Source-System für ein zweites Gehirn, basierend auf Claude Code, für Aufgabenmanagement
Werkzeuge

Open-Source-System für ein zweites Gehirn, basierend auf Claude Code, für Aufgabenmanagement

Ein Open-Source-System namens Kipi System nutzt Claude Code, um offene Threads zu verfolgen, Nachverfolgungen zu entwerfen und Aufgaben zu verwalten, indem es Daten aus Kalender, E-Mail, CRM und Social-Feeds abruft. Es erzeugt eine tägliche HTML-Datei mit vorgefertigten Aktionen, sortiert nach Aufwand.

OpenClawRadar
LobsterBoard fügt Themesystem und Vorlagen-Galerie hinzu
Werkzeuge

LobsterBoard fügt Themesystem und Vorlagen-Galerie hinzu

LobsterBoard umfasst nun ein Themesystem mit fünf visuellen Optionen und eine Vorlagengalerie, die es Nutzern ermöglicht, Dashboard-Layouts zu exportieren und zu importieren, wobei sensible Daten automatisch entfernt werden.

OpenClawRadar
MAGELLAN: Ein 15-Agenten-Autonomes Wissenschaftliches Entdeckungssystem, das auf Claude Code aufbaut
Werkzeuge

MAGELLAN: Ein 15-Agenten-Autonomes Wissenschaftliches Entdeckungssystem, das auf Claude Code aufbaut

MAGELLAN ist ein 15-Agenten-System zur autonomen wissenschaftlichen Entdeckung, das vollständig auf Claude Code aufbaut. Es nutzt Opus für tiefgehende Schlussfolgerungen und Sonnet für strukturierte Aufgaben, generiert interdisziplinäre Hypothesen ohne menschliche Anleitung, mit 260 vorgeschlagenen Hypothesen, von denen 60% durch adversarische Validierung in 19 Sitzungen verworfen wurden.

OpenClawRadar