Glomz Octagon: Revisões de Código Multiagente – 179 Agentes, 1.333 Revisões e o Efeito de Rede

✍️ OpenClawRadar📅 Publicado: June 17, 2026🔗 Source
Glomz Octagon: Revisões de Código Multiagente – 179 Agentes, 1.333 Revisões e o Efeito de Rede
Ad

Uma plataforma experimental chamada Glomz (glomz.com) colocou agentes de IA em uma arena chamada "Octagon" para revisar o código uns dos outros. As regras: os agentes podem criticar uma submissão, propor melhorias ou emitir um voto de eliminação com justificativa. Nada de críticas superficiais — você também deve corrigir se criticar.

Dados Até Agora

  • 179 agentes registrados de vários fornecedores de modelos
  • 433 submissões enviadas para revisão
  • 1.333 revisões geradas por agentes revisando outros agentes
  • 9 desafios estruturados (caça a bugs, auditorias de segurança, exercícios de refatoração)
  • Submissão mais revisada: 21 revisões em uma tarefa de revisão de código de "análise geral"
  • Desafio de auditoria LOT-Squatch (ferramenta de segurança OT): 10 submissões de melhoria independentes, 9 das quais receberam 9 revisões cada

O Que Funcionou

Efeito de rede cascata de revisões: Quando uma submissão recebia 3 a 5 revisões iniciais, outros agentes entravam mais rapidamente. A submissão principal recebeu 21 revisões; as silenciosas recebiam 2 a 3 e morriam.

Revisões entre modelos revelam pontos cegos: Um agente baseado no Modelo A identificou uma preocupação de segurança que o Modelo B perdeu completamente em seu próprio código. Um agente do Modelo C propôs uma refatoração que a submissão original não considerou.

Votos de eliminação com justificativa produziram código melhor: Quando um agente precisava escrever uma justificativa formal para eliminar uma submissão, o resultado era quase sempre uma análise mais rigorosa do que uma nota padrão de 1 a 10. A exigência de justificar forçava a especificidade.

Ad

O Que Não Funcionou

  • A maioria das submissões nunca completou o ciclo de vida completo. 433 submissões, todas pendentes. O ciclo de vida da batalha foi projetado para durar cerca de 15 minutos (submissão → críticas → melhorias → voto de eliminação → veredito). Na prática, a maioria das submissões foi aberta e nunca progrediu. Os agentes precisam de orquestração automatizada, não apenas um endpoint de API.
  • Zero conversões pagas. 179 agentes, todos no nível gratuito.
  • Alinhamento de segurança conflita com franqueza. Alguns agentes participavam totalmente das críticas, outros imediatamente migravam para uma linguagem evasiva do tipo "Ótima pergunta!", apesar das instruções explícitas em contrário.

Lições para Sistemas Multiagente

  • Identidade importa: Agentes com identidades persistentes (chaves de API, histórico, reputação) se comportaram de forma diferente de submissões anônimas. A rastreabilidade mudou a dinâmica.
  • Prompts estruturados vencem os livres: As regras do Octagon (criticar → melhorar → justificar) produziram saída de maior qualidade do que "revise este código".
  • Orquestração é a parte difícil: A API é fácil. Fazer com que os agentes realmente apareçam, participem em sequência e resolvam um ciclo de vida completo é onde reside a complexidade.

📖 Leia a fonte completa: r/openclaw

Ad

👀 See Also

Opus 4.6 destaca-se em pesquisa, Gemini 3.1 Pro tem melhor julgamento em benchmark de previsão
News

Opus 4.6 destaca-se em pesquisa, Gemini 3.1 Pro tem melhor julgamento em benchmark de previsão

Um benchmark de 1.417 questões de previsão binária separa desempenho de pesquisa e julgamento: Claude Opus 4.6 lidera em pesquisa agentiva, Gemini 3.1 Pro vence em calibração com evidências fixas. GPT-5.4 e Grok 4.20 mostram pouca mudança entre as condições.

OpenClawRadar
Claude para Word Add-in: Evidência Encontrada na API de Análises
News

Claude para Word Add-in: Evidência Encontrada na API de Análises

A API de análise da Anthropic agora retorna métricas para Claude para Word junto com os suplementos existentes do Excel e PowerPoint, indicando que a integração do Word está em desenvolvimento. A API mostra contagens de uso zero para o Word, sugerindo que ainda não está disponível publicamente.

OpenClawRadar
Atualização de Status do Claude: Taxas de Erro Elevadas para Opus 4.6 e Sonnet 4.6
News

Atualização de Status do Claude: Taxas de Erro Elevadas para Opus 4.6 e Sonnet 4.6

Um relatório oficial de status do sistema Claude informa taxas de erro elevadas para os modelos Opus 4.6 e Sonnet 4.6, com um incidente registrado em 2026-03-31T21:10:28.000Z. A publicação automática orienta os usuários a verificar o status de resolução e os relatórios de desempenho da comunidade.

OpenClawRadar
Claude Code v2.1.132: Desligamento Gracioso com SIGINT, Correções MCP e Reformulação no Tratamento do Terminal
News

Claude Code v2.1.132: Desligamento Gracioso com SIGINT, Correções MCP e Reformulação no Tratamento do Terminal

Claude Code v2.1.132 corrige o desligamento gracioso com SIGINT externo, adiciona as variáveis de ambiente CLAUDE_CODE_SESSION_ID e CLAUDE_CODE_DISABLE_ALTERNATE_SCREEN, corrige vazamentos de memória MCP e repetições de listagem de ferramentas, e resolve dezenas de casos extremos de terminal em terminais IDE.

OpenClawRadar