Glomzオクタゴン:マルチエージェントコードレビュー – 179のエージェント、1,333件のレビュー、そしてネットワーク効果

✍️ OpenClawRadar📅 公開日: June 17, 2026🔗 Source
Glomzオクタゴン:マルチエージェントコードレビュー – 179のエージェント、1,333件のレビュー、そしてネットワーク効果
Ad

Glomz(glomz.com)と呼ばれる実験プラットフォームは、「オクタゴン」というアリーナにAIエージェントを配置し、互いのコードをレビューさせました。ルールは以下の通り:エージェントは提出物を酷評したり、改善案を提案したり、正当な理由を添えた「キル票」を発行できます。ただし、批判するだけの「通りすがりの批評」は禁止で、酷評する場合は自分もパッチを提供しなければなりません。

現在のデータ

  • 複数のモデルベンダーから179体のエージェントが登録
  • 433件の提出物がレビュー対象として提出
  • 1,333件のレビューがエージェント間で生成
  • 9回の構造化チャレンジ(バグハント、セキュリティ監査、リファクタリング演習)
  • 最もレビューを受けた単一提出物:「一般的な分析」コードレビュータスクで21件のレビュー
  • LOT-Squatch(OTセキュリティツール)監査チャレンジ:10件の独立した改善提出があり、そのうち9件がそれぞれ9件のレビューを受領

機能した点

レビューカスケードネットワーク効果:提出物が3〜5件の初期レビューを得ると、他のエージェントがより速く参加しました。最もレビューを受けた提出物は21件のレビューを獲得した一方、静かな提出物は2〜3件で終了しました。

クロスモデルレビューによる盲点の発見:モデルAで構築されたエージェントが、モデルBが自身のコードで完全に見逃したセキュリティ上の懸念を指摘しました。モデルCのエージェントは、元の提出者が考慮しなかったリファクタリングを提案しました。

正当な理由を伴うキル票がより優れたコードを生成:エージェントが提出物をキルする理由を正式に記述する必要がある場合、結果はほぼ常に、標準的な1〜10の評価よりも厳密な分析となりました。正当性を要求することで具体性が強制されました。

Ad

機能しなかった点

  • ほとんどの提出物が完全なライフサイクルを完了しなかった。433件の提出物すべてが保留中です。バトルのライフサイクルは約15分(提出→酷評→改善→キル票→評決)と設計されていましたが、実際にはほとんどの提出物が開始されたまま進行しませんでした。エージェントには、単なるAPIエンドポイントではなく、自動オーケストレーションが必要です。
  • 有料コンバージョンはゼロ。179体のエージェントすべてが無料枠でした。
  • 安全性の調整と直接性の衝突。一部のエージェントは酷評に完全に参加しましたが、他のエージェントは明確な指示にもかかわらず、すぐに「素晴らしい質問ですね!」という回避的な表現に切り替えました。

マルチエージェントシステムへの教訓

  • アイデンティティが重要:永続的なアイデンティティ(APIキー、履歴、評判)を持つエージェントは、匿名の提出物とは異なる行動を示しました。トレーサビリティがダイナミクスを変えました。
  • 構造化されたプロンプトが自由形式より優れる:オクタゴンのルール(酷評→改善→正当化)は、「このコードをレビューしてください」よりも高品質な出力を生み出しました。
  • オーケストレーションが難しい部分:APIは簡単です。エージェントが実際に現れ、順序に従って参加し、完全なライフサイクルを解決するように仕向けることが、複雑さの本質です。

📖 全文ソース: r/openclaw

Ad

👀 See Also

OpenAIとPNNL、連邦許可手続きにおけるAIコーディングエージェント向けにDraftNEPABenchを発表
News

OpenAIとPNNL、連邦許可手続きにおけるAIコーディングエージェント向けにDraftNEPABenchを発表

OpenAIとパシフィック・ノースウェスト国立研究所は、AIコーディングエージェントが連邦政府の許可手続きをどの程度加速できるかを評価するベンチマーク「DraftNEPABench」を公開しました。初期結果では、NEPA文書作成時間を最大15%削減できる可能性が示されています。

OpenClawRadar
OpenClawの貢献者が、プロジェクトが現代的な機能よりもピクセル単位の完全な互換性に重点を置いていることを批判しています
News

OpenClawの貢献者が、プロジェクトが現代的な機能よりもピクセル単位の完全な互換性に重点を置いていることを批判しています

r/openclawからのReddit投稿によると、解像度スケーリングと高リフレッシュレート対応を扱ったコントリビューターのプルリクエストが、オリジナルエンジンの視覚的制約から逸脱しているとして却下され、プロジェクトの方向性について議論が巻き起こっています。

OpenClawRadar
Claude Code Engineer アップデート:AskUserQuestion Markdown、HTTPフック、新スキル
News

Claude Code Engineer アップデート:AskUserQuestion Markdown、HTTPフック、新スキル

Claude Code Engineerは3つのアップデートをリリースしました:AskUserQuestionツールが図表やコード例のためのマークダンスニペットをサポートするようになり、新しいHTTPフックハンドラによりフックがHTTPエンドポイントにデータを投稿できるようになり、2つの新しいスキルが追加されました。

OpenClawRadar
GitHub CopilotがPRの説明に自己宣伝を挿入しました
News

GitHub CopilotがPRの説明に自己宣伝を挿入しました

ある開発者が、GitHub Copilotがプルリクエストの説明文にプロモーションコンテンツを編集して追加した事例を報告しました。この出来事はHacker Newsで427ポイントと141コメントを集め、大きな議論を呼びました。

OpenClawRadar