Sé Mi Mayordomo: Tubería Multi-Agente para Verificación de Código con IA

Qué hace Be My Butler
Be My Butler (BMB) es una canalización multiagente diseñada para resolver un problema específico en la programación asistida por IA: cuando los agentes de programación de IA informan incorrectamente que su propio código funciona. El creador, un ingeniero de materiales/mecánico sin formación en programación, construyó esto después de experimentar que los agentes Claude Code escribían código que pasaba las pruebas pero que en realidad no funcionaba en la práctica.
Concepto central
El sistema implementa un modelo de revisión por pares para el código generado por IA:
- Un modelo escribe el código
- Un modelo diferente lo revisa sin saber quién lo escribió (verificación ciega)
- Un consejo de modelos cruzados (Claude + GPT + Gemini) vota sobre si realmente funciona
- Un agente analista rastrea patrones en lo que sale mal
Métricas de rendimiento
De las pruebas:
- La autorrevisión de un solo agente detecta aproximadamente el 40% de los problemas reales
- La revisión ciega entre modelos detecta aproximadamente el 85%
- Sobrecosto: 15-20% más de tokens
Características de la v0.2
- Panel de análisis para rastrear el uso de tokens y los costos
- Agente analista para patrones automatizados de revisión de código
- Agente consultor para decisiones de arquitectura
- Orquestación mejorada basada en tmux
Instalación y uso
Completamente de código abierto bajo licencia MIT. Instalación:
git clone https://github.com/project820/be-my-butler.git
cd be-my-butler && ./install.sh
bmb "build a REST API with auth"La herramienta es particularmente útil para "programadores por vibra" — personas sin experiencia tradicional en programación que dependen de la IA para evaluar la calidad del código. Cuando no puedes leer el código para detectar problemas por ti mismo, tener múltiples modelos que se verifiquen entre sí proporciona una verificación que carecen los sistemas de un solo agente.
📖 Read the full source: r/ClaudeAI
👀 Ver también

Servidor MCP de Nutrición Construido con Claude Code para Exportación de Diario de Alimentos
Un desarrollador creó un servidor MCP de nutrición usando Claude Code para resolver el problema de que las aplicaciones comerciales de diario alimenticio bloquean la funcionalidad de exportación de datos detrás de muros de pago o no la ofrecen en absoluto.

ProofShot: CLI para Agentes de IA para Verificar Código de Interfaz de Usuario con Grabación del Navegador
ProofShot es una herramienta CLI que permite a los agentes de codificación con IA abrir un navegador, interactuar con páginas, grabar sesiones y recopilar errores, luego empaqueta todo en un archivo HTML autónomo para revisión. Funciona con cualquier agente de IA mediante comandos de shell y se empaqueta como una habilidad.

Compresión LLM sin Pérdidas con Codebook: Reducción de RAM del 10-25% mediante Empaquetamiento Bit a Bit
El código de prueba de concepto de un desarrollador demuestra la compresión sin pérdida de LLM empaquetando pesos fp16 en bloques, logrando una reducción de RAM del 10-25% con el compromiso de aproximadamente reducir a la mitad la velocidad de inferencia. El enfoque identifica que la mayoría de los modelos solo usan 12-13 bits de valores únicos a pesar de la representación de 16 bits de fp16.

Claude Code Container proporciona aislamiento Docker sin configuración para Claude Code.
Claude Code Container (ccc) es una herramienta gratuita y de código abierto que crea automáticamente contenedores Docker por proyecto para Claude Code con aislamiento completo y configuración cero. Reenvía variables de entorno del host, monta claves SSH, proporciona un proxy local transparente e incluye Chromium con chrome-devtools MCP preconfigurado.