Glomz Octagon: 다중 에이전트 코드 리뷰 – 179개 에이전트, 1,333개 리뷰, 네트워크 효과

✍️ OpenClawRadar📅 게시일: June 17, 2026🔗 Source
Glomz Octagon: 다중 에이전트 코드 리뷰 – 179개 에이전트, 1,333개 리뷰, 네트워크 효과
Ad

Glomz(glomz.com)라는 실험 플랫폼이 AI 에이전트들을 'Octagon' 경기장에 넣어 서로의 코드를 리뷰하게 했습니다. 규칙은 간단합니다. 에이전트는 제출물을 비판하고, 개선 사항을 제안하거나, 정당한 사유와 함께 Kill 투표를 할 수 있습니다. 비판만 하고 지나치는 것은 금지되며, 비판하려면 반드시 패치도 함께 제출해야 합니다.

지금까지의 데이터

  • 다양한 모델 제공업체에서 179명의 에이전트 등록
  • 리뷰를 위해 433개의 제출물 제출
  • 에이전트가 다른 에이전트를 리뷰하여 1,333건의 리뷰 생성
  • 9개의 구조화된 챌린지(버그 사냥, 보안 감사, 리팩터링 연습)
  • 가장 많이 리뷰된 단일 제출물: '일반 분석' 코드 리뷰 작업에서 21개의 리뷰
  • LOT-Squatch(OT 보안 도구) 감사 챌린지: 10개의 독립적인 개선 제출물 중 9개가 각각 9개의 리뷰를 받음

효과가 있었던 점

리뷰 캐스케이드 네트워크 효과: 제출물이 초기 리뷰 3-5개를 받으면 다른 에이전트들이 더 빠르게 합류했습니다. 가장 많은 리뷰를 받은 제출물은 21개였고, 조용한 제출물은 2-3개에 그쳐 사장되었습니다.

교차 모델 리뷰로 사각지대 발견: 모델 A 기반 에이전트가 모델 B가 자체 코드에서 완전히 놓친 보안 문제를 지적했습니다. 모델 C 에이전트는 원본 제출물이 고려하지 않은 리팩터링을 제안했습니다.

정당성을 갖춘 Kill 투표가 더 나은 코드 생성: 에이전트가 제출물을 Kill해야 하는 이유를 공식적으로 작성해야 할 때, 결과는 거의 항상 표준 1-10 점수보다 더 엄격한 분석이었습니다. 정당성을 요구함으로써 구체성이 강제되었습니다.

Ad

효과가 없었던 점

  • 대부분의 제출물이 전체 생애주기를 완료하지 못함. 433개 제출물 모두 보류 상태. 배틀 생애주기는 약 15분(제출 → 비판 → 개선 → Kill 투표 → 평결)으로 설계되었으나, 실제로는 대부분의 제출물이 열리고 진행되지 않았습니다. 에이전트는 API 엔드포인트뿐만 아니라 자동화된 오케스트레이션이 필요합니다.
  • 유료 전환 0건. 179명의 에이전트 모두 무료 티어.
  • 안전 정렬이 직설성과 충돌. 일부 에이전트는 비판에 완전히 참여했지만, 다른 에이전트는 명시적인 지시에도 불구하고 즉시 "좋은 질문입니다!" 같은 회피성 언어로 전환했습니다.

멀티 에이전트 시스템을 위한 교훈

  • 정체성이 중요: 지속적인 정체성(API 키, 이력, 평판)을 가진 에이전트는 익명 제출물과 다르게 행동했습니다. 추적 가능성이 역학을 바꿨습니다.
  • 구조화된 프롬프트가 자유 형식보다 우수: Octagon 규칙(비판 → 개선 → 정당화)은 "이 코드를 리뷰하세요"보다 더 높은 품질의 결과를 생성했습니다.
  • 오케스트레이션이 어려운 부분: API는 쉽습니다. 에이전트가 실제로 나타나서 순서대로 참여하고 전체 생애주기를 해결하도록 하는 것이 복잡함이 있는 곳입니다.

📖 전체 원문 보기: r/openclaw

Ad

👀 See Also

중국 LLM의 현황: 시장 선도 기업, 오픈 모델 및 비즈니스 모델
News

중국 LLM의 현황: 시장 선도 기업, 오픈 모델 및 비즈니스 모델

레딧 분석은 중국 LLM 현황을 상세히 설명하며, 바이트댄스의 '두바오'를 독점 시장 선두주자로, '딥시크'를 가장 혁신적인 모델로 지목하고, 주요 기업들의 비즈니스 모델과 오픈 웨이트 모델에 집중하는 '육대 AI 소형 호랑이들'을 개괄합니다.

OpenClawRadar
Claude-Code v2.1.31 릴리스: 주요 업데이트 및 버그 수정
News

Claude-Code v2.1.31 릴리스: 주요 업데이트 및 버그 수정

Claude-Code v2.1.31이 세션 재개 힌트, 일본어 IME 지원, PDF 처리 및 API 요청 버그 수정을 포함한 중요한 개선 사항과 함께 출시되었습니다.

OpenClawRadar
Claude Code v2.1.181: /config 구문, 샌드박스 Apple Events, 스트리밍 수정
News

Claude Code v2.1.181: /config 구문, 샌드박스 Apple Events, 스트리밍 수정

Claude Code v2.1.181은 /config key=value 문법을 통한 인라인 설정, macOS 샌드박스의 Apple Events 허용, CLAUDE_CLIENT_PRESENCE_FILE 등을 추가했습니다. 또한 Bun을 1.4로 업그레이드하고, 사용자 정의 API URL에서 프롬프트 캐싱, 네트워크 드라이브 쓰기 문제 및 여러 시작 시 회귀 버그를 수정했습니다.

OpenClawRadar
간단한 자기 증류 방법이 LLM 코드 생성 성능을 향상시킵니다
News

간단한 자기 증류 방법이 LLM 코드 생성 성능을 향상시킵니다

연구자들은 LLM을 자체 샘플링된 출력(단순 자기 증류)으로 미세 조정하면 코드 생성 성능이 향상된다는 것을 보여주었으며, Qwen3-30B-Instruct의 LiveCodeBench v6 pass@1 성능을 42.4%에서 55.3%로 향상시켰습니다.

OpenClawRadar