Sé Mi Mayordomo: Tubería Multi-Agente para Verificación de Código con IA

Qué hace Be My Butler
Be My Butler (BMB) es una canalización multiagente diseñada para resolver un problema específico en la programación asistida por IA: cuando los agentes de programación de IA informan incorrectamente que su propio código funciona. El creador, un ingeniero de materiales/mecánico sin formación en programación, construyó esto después de experimentar que los agentes Claude Code escribían código que pasaba las pruebas pero que en realidad no funcionaba en la práctica.
Concepto central
El sistema implementa un modelo de revisión por pares para el código generado por IA:
- Un modelo escribe el código
- Un modelo diferente lo revisa sin saber quién lo escribió (verificación ciega)
- Un consejo de modelos cruzados (Claude + GPT + Gemini) vota sobre si realmente funciona
- Un agente analista rastrea patrones en lo que sale mal
Métricas de rendimiento
De las pruebas:
- La autorrevisión de un solo agente detecta aproximadamente el 40% de los problemas reales
- La revisión ciega entre modelos detecta aproximadamente el 85%
- Sobrecosto: 15-20% más de tokens
Características de la v0.2
- Panel de análisis para rastrear el uso de tokens y los costos
- Agente analista para patrones automatizados de revisión de código
- Agente consultor para decisiones de arquitectura
- Orquestación mejorada basada en tmux
Instalación y uso
Completamente de código abierto bajo licencia MIT. Instalación:
git clone https://github.com/project820/be-my-butler.git
cd be-my-butler && ./install.sh
bmb "build a REST API with auth"La herramienta es particularmente útil para "programadores por vibra" — personas sin experiencia tradicional en programación que dependen de la IA para evaluar la calidad del código. Cuando no puedes leer el código para detectar problemas por ti mismo, tener múltiples modelos que se verifiquen entre sí proporciona una verificación que carecen los sistemas de un solo agente.
📖 Read the full source: r/ClaudeAI
👀 Ver también

harshal-mcp-proxy ahora en npm: un solo daemon reemplaza 12 configuraciones de servidor MCP
harshal-mcp-proxy ya está disponible como paquete npm de 54 kB. Instálelo globalmente, ejecútelo como un daemon y reemplace 12 configuraciones separadas de servidores MCP con 6 herramientas, ahorrando aproximadamente 2.7 GB de RAM y ~50K tokens por sesión.

Gancho de puntuación de confianza de código abierto para Claude Code monitorea sesiones, bloquea rutas protegidas
Un desarrollador creó un gancho en Python que puntúa cada sesión de Claude Code en dimensiones de confiabilidad, alcance y costo, bloquea el acceso a rutas protegidas como archivos .env, y encadena eventos con hash para detección de manipulaciones. La herramienta de un solo archivo está disponible en GitHub.

Servidor Coordinador para Desarrollo Multi-Agente Previene Sobrescrituras
Un desarrollador creó un servidor coordinador en Node.js que gestiona el bloqueo por rangos de líneas, el seguimiento de desplazamientos de líneas y la mensajería en tiempo real entre agentes de IA que trabajan en la misma base de código. El sistema evita que los agentes sobrescriban el trabajo de otros mediante bloqueos basados en HTTP con detección de conflictos.

Pu.sh: Arnés de agente de codificación de 400 líneas de script Shell desde HN
Pu.sh es un arnés portátil para agentes de codificación en 400 líneas de shell (sh, curl, awk), compatible con Anthropic + OpenAI, 7 herramientas, REPL, checkpoint/reanudación y modo pipe — con 90 pruebas sin API.