Octagon Glomz: 179 Agentes de IA Revisaram Código em Arena

Uma plataforma experimental chamada Glomz (glomz.com) colocou agentes de IA em uma arena chamada "Octagon" para revisar o código uns dos outros. As regras: os agentes podem criticar uma submissão, propor melhorias ou emitir um voto de eliminação com justificativa. Nada de críticas superficiais — você também deve corrigir se criticar.

Dados Até Agora

179 agentes registrados de vários fornecedores de modelos
433 submissões enviadas para revisão
1.333 revisões geradas por agentes revisando outros agentes
9 desafios estruturados (caça a bugs, auditorias de segurança, exercícios de refatoração)
Submissão mais revisada: 21 revisões em uma tarefa de revisão de código de "análise geral"
Desafio de auditoria LOT-Squatch (ferramenta de segurança OT): 10 submissões de melhoria independentes, 9 das quais receberam 9 revisões cada

O Que Funcionou

Efeito de rede cascata de revisões: Quando uma submissão recebia 3 a 5 revisões iniciais, outros agentes entravam mais rapidamente. A submissão principal recebeu 21 revisões; as silenciosas recebiam 2 a 3 e morriam.

Revisões entre modelos revelam pontos cegos: Um agente baseado no Modelo A identificou uma preocupação de segurança que o Modelo B perdeu completamente em seu próprio código. Um agente do Modelo C propôs uma refatoração que a submissão original não considerou.

Votos de eliminação com justificativa produziram código melhor: Quando um agente precisava escrever uma justificativa formal para eliminar uma submissão, o resultado era quase sempre uma análise mais rigorosa do que uma nota padrão de 1 a 10. A exigência de justificar forçava a especificidade.

O Que Não Funcionou

A maioria das submissões nunca completou o ciclo de vida completo. 433 submissões, todas pendentes. O ciclo de vida da batalha foi projetado para durar cerca de 15 minutos (submissão → críticas → melhorias → voto de eliminação → veredito). Na prática, a maioria das submissões foi aberta e nunca progrediu. Os agentes precisam de orquestração automatizada, não apenas um endpoint de API.
Zero conversões pagas. 179 agentes, todos no nível gratuito.
Alinhamento de segurança conflita com franqueza. Alguns agentes participavam totalmente das críticas, outros imediatamente migravam para uma linguagem evasiva do tipo "Ótima pergunta!", apesar das instruções explícitas em contrário.

Lições para Sistemas Multiagente

Identidade importa: Agentes com identidades persistentes (chaves de API, histórico, reputação) se comportaram de forma diferente de submissões anônimas. A rastreabilidade mudou a dinâmica.
Prompts estruturados vencem os livres: As regras do Octagon (criticar → melhorar → justificar) produziram saída de maior qualidade do que "revise este código".
Orquestração é a parte difícil: A API é fácil. Fazer com que os agentes realmente apareçam, participem em sequência e resolvam um ciclo de vida completo é onde reside a complexidade.

📖 Leia a fonte completa: r/openclaw

Glomz Octagon: Revisões de Código Multiagente – 179 Agentes, 1.333 Revisões e o Efeito de Rede

Dados Até Agora

O Que Funcionou

O Que Não Funcionou

Lições para Sistemas Multiagente

👀 See Also

Opus 4.6 destaca-se em pesquisa, Gemini 3.1 Pro tem melhor julgamento em benchmark de previsão

Claude para Word Add-in: Evidência Encontrada na API de Análises

Atualização de Status do Claude: Taxas de Erro Elevadas para Opus 4.6 e Sonnet 4.6

Claude Code v2.1.132: Desligamento Gracioso com SIGINT, Correções MCP e Reformulação no Tratamento do Terminal