Soyez Mon Majordome : Pipeline Multi-Agent pour la Vérification de Code IA

Ce que fait Be My Butler
Be My Butler (BMB) est un pipeline multi-agents conçu pour résoudre un problème spécifique dans le codage assisté par IA : lorsque les agents de codage IA signalent incorrectement leur propre code comme fonctionnel. Le créateur, un ingénieur en matériaux/mécanique sans formation en programmation, a construit cela après avoir constaté que les agents Claude Code écrivaient du code qui passait les tests mais ne fonctionnait pas réellement en pratique.
Concept central
Le système met en œuvre un modèle de révision par les pairs pour le code généré par l'IA :
- Un modèle écrit le code
- Un modèle différent le révise sans savoir qui l'a écrit (vérification aveugle)
- Un conseil inter-modèles (Claude + GPT + Gemini) vote pour déterminer s'il fonctionne réellement
- Un agent analyste suit les modèles de ce qui ne fonctionne pas
Métriques de performance
D'après les tests :
- L'auto-révision par agent unique détecte ~40 % des vrais problèmes
- La révision aveugle inter-modèles détecte ~85 %
- Surcharge de coût : 15-20 % de tokens supplémentaires
Fonctionnalités v0.2
- Tableau de bord analytique pour suivre l'utilisation des tokens et les coûts
- Agent analyste pour les modèles de révision de code automatisée
- Agent consultant pour les décisions d'architecture
- Orchestration améliorée basée sur tmux
Installation et utilisation
Entièrement open source sous licence MIT. Installation :
git clone https://github.com/project820/be-my-butler.git
cd be-my-butler && ./install.sh
bmb "build a REST API with auth"L'outil est particulièrement utile pour les "codeurs à l'intuition" — les personnes sans expérience traditionnelle en codage qui dépendent de l'IA pour l'évaluation de la qualité du code. Lorsque vous ne pouvez pas lire le code pour repérer vous-même les problèmes, avoir plusieurs modèles qui se vérifient mutuellement fournit une vérification que les systèmes à agent unique n'offrent pas.
📖 Read the full source: r/ClaudeAI
👀 See Also

Utiliser /probe pour détecter les hallucinations de l'IA avant d'écrire du code
Un développeur partage une technique appelée /probe qui force les plans générés par l'IA à émettre des affirmations numérotées avec des valeurs attendues, puis sonde le système réel pour détecter les écarts. La méthode a révélé quatre erreurs factuelles dans la description par Claude de son propre format JSONL, qui auraient causé des bugs dans le code.

Hermes Agent v0.6.0 propose une meilleure prise en charge des modèles locaux avec des analyseurs d'appels d'outils par modèle.
Hermes Agent v0.6.0 de Nous Research fournit des analyseurs d'appels d'outils par modèle qui gèrent correctement les appels d'outils sur les modèles de classe 30B, prend en charge Ollama, vLLM et sglang nativement, et inclut six backends terminaux dont Modal et Daytona pour le déploiement serverless.

Forge : Le Plugin Open-Source Claude Code Ajoute des Portails de Gouvernance et de Tests
Forge est un plugin open-source pour Claude Code qui ajoute le verrouillage de fichiers, des portails de tests automatisés et 22 agents de gouvernance pour prévenir les collisions et les dérives dans les flux de travail de code généré par IA. Il est sous licence MIT et s'installe via la marketplace de plugins Claude.

CrabMeat v0.1.0 : Une passerelle d'agents axée sur la sécurité qui ne fait pas confiance au LLM en matière de frontière de sécurité
CrabMeat v0.1.0 est une passerelle WebSocket pour les charges de travail LLM agentiques qui applique la sécurité au niveau architectural : indirection des ID de capacité, classes d'effet, IRONCLAD_CONTEXT instructions épinglées, chaîne d'audit inviolable, filtre de fuite de sortie en streaming, et aucun mode YOLO.