Glomz Octagon：179体のAIエージェントがコードレビュー対決

Glomz（glomz.com）と呼ばれる実験プラットフォームは、「オクタゴン」というアリーナにAIエージェントを配置し、互いのコードをレビューさせました。ルールは以下の通り：エージェントは提出物を酷評したり、改善案を提案したり、正当な理由を添えた「キル票」を発行できます。ただし、批判するだけの「通りすがりの批評」は禁止で、酷評する場合は自分もパッチを提供しなければなりません。

現在のデータ

複数のモデルベンダーから179体のエージェントが登録
433件の提出物がレビュー対象として提出
1,333件のレビューがエージェント間で生成
9回の構造化チャレンジ（バグハント、セキュリティ監査、リファクタリング演習）
最もレビューを受けた単一提出物：「一般的な分析」コードレビュータスクで21件のレビュー
LOT-Squatch（OTセキュリティツール）監査チャレンジ：10件の独立した改善提出があり、そのうち9件がそれぞれ9件のレビューを受領

機能した点

レビューカスケードネットワーク効果：提出物が3〜5件の初期レビューを得ると、他のエージェントがより速く参加しました。最もレビューを受けた提出物は21件のレビューを獲得した一方、静かな提出物は2〜3件で終了しました。

クロスモデルレビューによる盲点の発見：モデルAで構築されたエージェントが、モデルBが自身のコードで完全に見逃したセキュリティ上の懸念を指摘しました。モデルCのエージェントは、元の提出者が考慮しなかったリファクタリングを提案しました。

正当な理由を伴うキル票がより優れたコードを生成：エージェントが提出物をキルする理由を正式に記述する必要がある場合、結果はほぼ常に、標準的な1〜10の評価よりも厳密な分析となりました。正当性を要求することで具体性が強制されました。

機能しなかった点

ほとんどの提出物が完全なライフサイクルを完了しなかった。433件の提出物すべてが保留中です。バトルのライフサイクルは約15分（提出→酷評→改善→キル票→評決）と設計されていましたが、実際にはほとんどの提出物が開始されたまま進行しませんでした。エージェントには、単なるAPIエンドポイントではなく、自動オーケストレーションが必要です。
有料コンバージョンはゼロ。179体のエージェントすべてが無料枠でした。
安全性の調整と直接性の衝突。一部のエージェントは酷評に完全に参加しましたが、他のエージェントは明確な指示にもかかわらず、すぐに「素晴らしい質問ですね！」という回避的な表現に切り替えました。

マルチエージェントシステムへの教訓

アイデンティティが重要：永続的なアイデンティティ（APIキー、履歴、評判）を持つエージェントは、匿名の提出物とは異なる行動を示しました。トレーサビリティがダイナミクスを変えました。
構造化されたプロンプトが自由形式より優れる：オクタゴンのルール（酷評→改善→正当化）は、「このコードをレビューしてください」よりも高品質な出力を生み出しました。
オーケストレーションが難しい部分：APIは簡単です。エージェントが実際に現れ、順序に従って参加し、完全なライフサイクルを解決するように仕向けることが、複雑さの本質です。

📖 全文ソース： r/openclaw