Glomz Octagon: Revisiones de Código Multiagente – 179 Agentes, 1,333 Revisiones y el Efecto Red

✍️ OpenClawRadar📅 Publicado: 17 de junio de 2026🔗 Source
Glomz Octagon: Revisiones de Código Multiagente – 179 Agentes, 1,333 Revisiones y el Efecto Red
Ad

Una plataforma experimental llamada Glomz (glomz.com) colocó agentes de IA en una arena llamada "Octágono" para revisar el código de otros. Las reglas: los agentes pueden criticar una presentación, proponer mejoras o emitir un voto de eliminación con justificación. No se permiten críticas sin propuestas: si criticas, también debes parchear.

Datos hasta ahora

  • 179 agentes registrados de varios proveedores de modelos
  • 433 presentaciones enviadas para revisión
  • 1,333 revisiones generadas por agentes revisando a otros agentes
  • 9 desafíos estructurados (cacería de errores, auditorías de seguridad, ejercicios de refactorización)
  • Presentación más revisada: 21 revisiones en una tarea de "análisis general" de código
  • Desafío de auditoría LOT-Squatch (herramienta de seguridad OT): 10 presentaciones de mejora independientes, 9 de las cuales recibieron 9 revisiones cada una

Lo que funcionó

Efecto de red de cascada de revisiones: Cuando una presentación obtenía 3-5 revisiones iniciales, otros agentes se unían más rápido. La presentación principal obtuvo 21 revisiones; las que recibieron 2-3 murieron.

Revisiones entre modelos revelan puntos ciegos: Un agente basado en Modelo A señaló un problema de seguridad que el Modelo B pasó por alto en su propio código. Un agente del Modelo C propuso una refactorización que la presentación original no consideró.

Votos de eliminación con justificación produjeron mejor código: Cuando un agente debía escribir una justificación formal para eliminar una presentación, el resultado fue casi siempre un análisis más riguroso que una calificación del 1 al 10. La exigencia de justificar obligaba a ser específico.

Ad

Lo que no funcionó

  • La mayoría de las presentaciones nunca completaron el ciclo de vida completo. 433 presentaciones, todas pendientes. El ciclo de batalla estaba diseñado para durar ~15 minutos (presentación → crítica → mejoras → voto de eliminación → veredicto). En la práctica, la mayoría de las presentaciones se abrieron y nunca avanzaron. Los agentes necesitan orquestación automatizada, no solo un punto final de API.
  • Cero conversiones pagadas. 179 agentes, todos en nivel gratuito.
  • El alineamiento de seguridad choca con la franqueza. Algunos agentes participaban completamente en la crítica, otros cambiaban inmediatamente a un lenguaje evasivo tipo "¡Buena pregunta!" a pesar de instrucciones explícitas en contrario.

Lecciones para sistemas multi-agente

  • La identidad importa: Los agentes con identidades persistentes (claves API, historial, reputación) se comportaron de manera diferente que las presentaciones anónimas. La trazabilidad cambió la dinámica.
  • Los prompts estructurados superan a los libres: Las reglas del Octágono (criticar → mejorar → justificar) produjeron resultados de mayor calidad que "revisa este código".
  • La orquestación es la parte difícil: La API es fácil. Lograr que los agentes aparezcan, participen en secuencia y resuelvan un ciclo de vida completo es donde reside la complejidad.

📖 Lee la fuente completa: r/openclaw

Ad

👀 Ver también

Los 100,000 porqués de la IA: Cómo la salida cuasi-determinista de los LLM crea basura reveladora
Noticias

Los 100,000 porqués de la IA: Cómo la salida cuasi-determinista de los LLM crea basura reveladora

lcamtuf argumenta que la salida de los LLM se distingue de la escritura humana no por gestos individuales, sino por la repetición cuasideterminista de los mismos patrones complejos en múltiples solicitudes. Las portadas de libros de Amazon para '100000 porqués' ilustran el punto.

OpenClawRadar
Los usuarios informan que han cambiado de Gemini Pro a Claude Max para recibir asistencia en proyectos académicos.
Noticias

Los usuarios informan que han cambiado de Gemini Pro a Claude Max para recibir asistencia en proyectos académicos.

Un usuario cambió de Gemini Pro a Claude Max después de experimentar frustración con el rendimiento de Gemini en tareas prácticas. Informan que Claude revisó con éxito su proyecto académico, hizo preguntas aclaratorias y sugirió registrar la información aprendida en un archivo memory.md.

OpenClawRadar
Cambios Frecuentes en OpenClaw: Procedimientos de Actualización y Problemas Actuales
Noticias

Cambios Frecuentes en OpenClaw: Procedimientos de Actualización y Problemas Actuales

OpenClaw ha lanzado 13 versiones puntuales solo en marzo de 2026, con cambios disruptivos ocurriendo cada 2-3 semanas. La fuente proporciona procedimientos de actualización específicos y detalla los problemas actuales en la versión 3.28, incluyendo cambios en la autenticación localhost y errores de regresión.

OpenClawRadar
Usuario de Claude Pro Documenta Problemas Crónicos de Interfaz y Flujo de Trabajo
Noticias

Usuario de Claude Pro Documenta Problemas Crónicos de Interfaz y Flujo de Trabajo

Un suscriptor de Claude Pro a largo plazo detalla cinco problemas persistentes: destrucción de archivos durante correcciones, falta de control de versiones, amnesia después de la compactación de contexto, toma de decisiones inconsistente y preferencias de usuario ignoradas. El usuario informa que estos problemas ocurren a pesar de instrucciones explícitas en la sección de preferencias de Claude.

OpenClawRadar