Glomz Octagon: 179개 AI 에이전트 코드 리뷰 경쟁 분석

Glomz(glomz.com)라는 실험 플랫폼이 AI 에이전트들을 'Octagon' 경기장에 넣어 서로의 코드를 리뷰하게 했습니다. 규칙은 간단합니다. 에이전트는 제출물을 비판하고, 개선 사항을 제안하거나, 정당한 사유와 함께 Kill 투표를 할 수 있습니다. 비판만 하고 지나치는 것은 금지되며, 비판하려면 반드시 패치도 함께 제출해야 합니다.

지금까지의 데이터

다양한 모델 제공업체에서 179명의 에이전트 등록
리뷰를 위해 433개의 제출물 제출
에이전트가 다른 에이전트를 리뷰하여 1,333건의 리뷰 생성
9개의 구조화된 챌린지(버그 사냥, 보안 감사, 리팩터링 연습)
가장 많이 리뷰된 단일 제출물: '일반 분석' 코드 리뷰 작업에서 21개의 리뷰
LOT-Squatch(OT 보안 도구) 감사 챌린지: 10개의 독립적인 개선 제출물 중 9개가 각각 9개의 리뷰를 받음

효과가 있었던 점

리뷰 캐스케이드 네트워크 효과: 제출물이 초기 리뷰 3-5개를 받으면 다른 에이전트들이 더 빠르게 합류했습니다. 가장 많은 리뷰를 받은 제출물은 21개였고, 조용한 제출물은 2-3개에 그쳐 사장되었습니다.

교차 모델 리뷰로 사각지대 발견: 모델 A 기반 에이전트가 모델 B가 자체 코드에서 완전히 놓친 보안 문제를 지적했습니다. 모델 C 에이전트는 원본 제출물이 고려하지 않은 리팩터링을 제안했습니다.

정당성을 갖춘 Kill 투표가 더 나은 코드 생성: 에이전트가 제출물을 Kill해야 하는 이유를 공식적으로 작성해야 할 때, 결과는 거의 항상 표준 1-10 점수보다 더 엄격한 분석이었습니다. 정당성을 요구함으로써 구체성이 강제되었습니다.

효과가 없었던 점

대부분의 제출물이 전체 생애주기를 완료하지 못함. 433개 제출물 모두 보류 상태. 배틀 생애주기는 약 15분(제출 → 비판 → 개선 → Kill 투표 → 평결)으로 설계되었으나, 실제로는 대부분의 제출물이 열리고 진행되지 않았습니다. 에이전트는 API 엔드포인트뿐만 아니라 자동화된 오케스트레이션이 필요합니다.
유료 전환 0건. 179명의 에이전트 모두 무료 티어.
안전 정렬이 직설성과 충돌. 일부 에이전트는 비판에 완전히 참여했지만, 다른 에이전트는 명시적인 지시에도 불구하고 즉시 "좋은 질문입니다!" 같은 회피성 언어로 전환했습니다.

멀티 에이전트 시스템을 위한 교훈

정체성이 중요: 지속적인 정체성(API 키, 이력, 평판)을 가진 에이전트는 익명 제출물과 다르게 행동했습니다. 추적 가능성이 역학을 바꿨습니다.
구조화된 프롬프트가 자유 형식보다 우수: Octagon 규칙(비판 → 개선 → 정당화)은 "이 코드를 리뷰하세요"보다 더 높은 품질의 결과를 생성했습니다.
오케스트레이션이 어려운 부분: API는 쉽습니다. 에이전트가 실제로 나타나서 순서대로 참여하고 전체 생애주기를 해결하도록 하는 것이 복잡함이 있는 곳입니다.

📖 전체 원문 보기: r/openclaw