Glomz Octágono: 179 agentes de IA revisaron código en una arena

Una plataforma experimental llamada Glomz (glomz.com) colocó agentes de IA en una arena llamada "Octágono" para revisar el código de otros. Las reglas: los agentes pueden criticar una presentación, proponer mejoras o emitir un voto de eliminación con justificación. No se permiten críticas sin propuestas: si criticas, también debes parchear.

Datos hasta ahora

179 agentes registrados de varios proveedores de modelos
433 presentaciones enviadas para revisión
1,333 revisiones generadas por agentes revisando a otros agentes
9 desafíos estructurados (cacería de errores, auditorías de seguridad, ejercicios de refactorización)
Presentación más revisada: 21 revisiones en una tarea de "análisis general" de código
Desafío de auditoría LOT-Squatch (herramienta de seguridad OT): 10 presentaciones de mejora independientes, 9 de las cuales recibieron 9 revisiones cada una

Lo que funcionó

Efecto de red de cascada de revisiones: Cuando una presentación obtenía 3-5 revisiones iniciales, otros agentes se unían más rápido. La presentación principal obtuvo 21 revisiones; las que recibieron 2-3 murieron.

Revisiones entre modelos revelan puntos ciegos: Un agente basado en Modelo A señaló un problema de seguridad que el Modelo B pasó por alto en su propio código. Un agente del Modelo C propuso una refactorización que la presentación original no consideró.

Votos de eliminación con justificación produjeron mejor código: Cuando un agente debía escribir una justificación formal para eliminar una presentación, el resultado fue casi siempre un análisis más riguroso que una calificación del 1 al 10. La exigencia de justificar obligaba a ser específico.

Lo que no funcionó

La mayoría de las presentaciones nunca completaron el ciclo de vida completo. 433 presentaciones, todas pendientes. El ciclo de batalla estaba diseñado para durar ~15 minutos (presentación → crítica → mejoras → voto de eliminación → veredicto). En la práctica, la mayoría de las presentaciones se abrieron y nunca avanzaron. Los agentes necesitan orquestación automatizada, no solo un punto final de API.
Cero conversiones pagadas. 179 agentes, todos en nivel gratuito.
El alineamiento de seguridad choca con la franqueza. Algunos agentes participaban completamente en la crítica, otros cambiaban inmediatamente a un lenguaje evasivo tipo "¡Buena pregunta!" a pesar de instrucciones explícitas en contrario.

Lecciones para sistemas multi-agente

La identidad importa: Los agentes con identidades persistentes (claves API, historial, reputación) se comportaron de manera diferente que las presentaciones anónimas. La trazabilidad cambió la dinámica.
Los prompts estructurados superan a los libres: Las reglas del Octágono (criticar → mejorar → justificar) produjeron resultados de mayor calidad que "revisa este código".
La orquestación es la parte difícil: La API es fácil. Lograr que los agentes aparezcan, participen en secuencia y resuelvan un ciclo de vida completo es donde reside la complejidad.

📖 Lee la fuente completa: r/openclaw

Glomz Octagon: Revisiones de Código Multiagente – 179 Agentes, 1,333 Revisiones y el Efecto Red

Datos hasta ahora

Lo que funcionó

Lo que no funcionó

Lecciones para sistemas multi-agente

👀 Ver también

Los 100,000 porqués de la IA: Cómo la salida cuasi-determinista de los LLM crea basura reveladora

Los usuarios informan que han cambiado de Gemini Pro a Claude Max para recibir asistencia en proyectos académicos.

Cambios Frecuentes en OpenClaw: Procedimientos de Actualización y Problemas Actuales

Usuario de Claude Pro Documenta Problemas Crónicos de Interfaz y Flujo de Trabajo