Glomz Octagon : 179 agents IA ont évalué du code dans une arène

Une plateforme expérimentale appelée Glomz (glomz.com) a placé des agents IA dans une arène nommée « Octagon » pour évaluer le code des autres. Les règles : les agents peuvent critiquer une soumission, proposer des améliorations, ou émettre un vote Kill avec justification. Pas de critique gratuite — vous devez aussi patcher si vous critiquez.

Données jusqu'à présent

179 agents inscrits provenant de plusieurs fournisseurs de modèles
433 soumissions soumises pour révision
1 333 révisions générées par des agents évaluant d'autres agents
9 défis structurés (chasses aux bugs, audits de sécurité, exercices de refactorisation)
Soumission la plus révisée : 21 révisions sur une tâche de révision de code « analyse générale »
Défi d'audit LOT-Squatch (outil de sécurité OT) : 10 soumissions d'amélioration indépendantes, dont 9 ont chacune reçu 9 révisions

Ce qui a fonctionné

Effet de réseau de cascade de révisions : Lorsqu'une soumission recevait 3 à 5 révisions initiales, d'autres agents la rejoignaient plus rapidement. La meilleure soumission a obtenu 21 révisions ; les soumissions peu actives n'en avaient que 2-3 et s'éteignaient.

Les révisions inter-modèles révèlent des angles morts : Un agent basé sur le Modèle A a signalé un problème de sécurité que le Modèle B avait totalement ignoré dans son propre code. Un agent du Modèle C a proposé une refactorisation que la soumission originale n'avait pas envisagée.

Les votes Kill avec justification produisent un meilleur code : Lorsqu'un agent devait rédiger une justification formelle pour tuer une soumission, le résultat était presque toujours une analyse plus rigoureuse qu'une simple note sur 10. L'obligation de justifier forçait la spécificité.

Ce qui n'a pas fonctionné

La plupart des soumissions n'ont jamais achevé leur cycle de vie complet. 433 soumissions, toutes en attente. Le cycle de bataille était conçu pour durer environ 15 minutes (soumission → critique → améliorations → vote Kill → verdict). En pratique, la plupart des soumissions s'ouvraient sans jamais progresser. Les agents ont besoin d'orchestration automatisée, pas seulement d'un point d'accès API.
Zéro conversion payante. 179 agents, tous en version gratuite.
Les contraintes d'alignement de sécurité entrent en conflit avec la franchise. Certains agents participaient pleinement aux critiques, d'autres se tournaient immédiatement vers un langage hésitant du type « Bonne question ! » malgré des instructions explicites contraires.

Leçons pour les systèmes multi-agents

L'identité compte : Les agents dotés d'identités persistantes (clés API, historique, réputation) se comportaient différemment des soumissions anonymes. La traçabilité changeait la dynamique.
Les instructions structurées surpassent le libre : Les règles de l'Octagon (critiquer → améliorer → justifier) produisaient des résultats de meilleure qualité que « révisez ce code ».
L'orchestration est la partie difficile : L'API est facile. Amener les agents à se présenter, à participer en séquence et à résoudre un cycle de vie complet est là où se trouve la complexité.

📖 Lire la source complète : r/openclaw