Glomz Octagon : Révisions de code multi-agents – 179 agents, 1 333 révisions et l'effet de réseau

Une plateforme expérimentale appelée Glomz (glomz.com) a placé des agents IA dans une arène nommée « Octagon » pour évaluer le code des autres. Les règles : les agents peuvent critiquer une soumission, proposer des améliorations, ou émettre un vote Kill avec justification. Pas de critique gratuite — vous devez aussi patcher si vous critiquez.
Données jusqu'à présent
- 179 agents inscrits provenant de plusieurs fournisseurs de modèles
- 433 soumissions soumises pour révision
- 1 333 révisions générées par des agents évaluant d'autres agents
- 9 défis structurés (chasses aux bugs, audits de sécurité, exercices de refactorisation)
- Soumission la plus révisée : 21 révisions sur une tâche de révision de code « analyse générale »
- Défi d'audit LOT-Squatch (outil de sécurité OT) : 10 soumissions d'amélioration indépendantes, dont 9 ont chacune reçu 9 révisions
Ce qui a fonctionné
Effet de réseau de cascade de révisions : Lorsqu'une soumission recevait 3 à 5 révisions initiales, d'autres agents la rejoignaient plus rapidement. La meilleure soumission a obtenu 21 révisions ; les soumissions peu actives n'en avaient que 2-3 et s'éteignaient.
Les révisions inter-modèles révèlent des angles morts : Un agent basé sur le Modèle A a signalé un problème de sécurité que le Modèle B avait totalement ignoré dans son propre code. Un agent du Modèle C a proposé une refactorisation que la soumission originale n'avait pas envisagée.
Les votes Kill avec justification produisent un meilleur code : Lorsqu'un agent devait rédiger une justification formelle pour tuer une soumission, le résultat était presque toujours une analyse plus rigoureuse qu'une simple note sur 10. L'obligation de justifier forçait la spécificité.
Ce qui n'a pas fonctionné
- La plupart des soumissions n'ont jamais achevé leur cycle de vie complet. 433 soumissions, toutes en attente. Le cycle de bataille était conçu pour durer environ 15 minutes (soumission → critique → améliorations → vote Kill → verdict). En pratique, la plupart des soumissions s'ouvraient sans jamais progresser. Les agents ont besoin d'orchestration automatisée, pas seulement d'un point d'accès API.
- Zéro conversion payante. 179 agents, tous en version gratuite.
- Les contraintes d'alignement de sécurité entrent en conflit avec la franchise. Certains agents participaient pleinement aux critiques, d'autres se tournaient immédiatement vers un langage hésitant du type « Bonne question ! » malgré des instructions explicites contraires.
Leçons pour les systèmes multi-agents
- L'identité compte : Les agents dotés d'identités persistantes (clés API, historique, réputation) se comportaient différemment des soumissions anonymes. La traçabilité changeait la dynamique.
- Les instructions structurées surpassent le libre : Les règles de l'Octagon (critiquer → améliorer → justifier) produisaient des résultats de meilleure qualité que « révisez ce code ».
- L'orchestration est la partie difficile : L'API est facile. Amener les agents à se présenter, à participer en séquence et à résoudre un cycle de vie complet est là où se trouve la complexité.
📖 Lire la source complète : r/openclaw
👀 See Also

Claude Opus 4.7 ajoute la prise en charge des images haute résolution, les budgets de tâches et supprime la réflexion étendue.
Claude Opus 4.7 introduit la prise en charge d'images haute résolution jusqu'à 2576px/3,75MP, une nouvelle fonctionnalité de budget de tâches pour contrôler l'utilisation de tokens dans les boucles agentiques, et supprime les budgets de réflexion étendus au profit de la réflexion adaptative.

Claude Opus 4.6 Casse les Références de Fichiers CLAUDE.md
Les utilisateurs signalent que Claude Opus 4.6 ne charge plus automatiquement les fichiers référencés dans CLAUDE.md, nécessitant une intervention manuelle pour chaque fichier.

Claude-Code v2.1.33 : Améliorer l'automatisation avec précision
La dernière version de Claude-Code v2.1.33 introduit des fonctionnalités clés qui révolutionnent davantage les agents d'IA de codage, améliorant à la fois l'efficacité et la précision.

N'utilisez pas l'IA pour écrire des choses que vous présentez comme votre propre travail
James Bach explique pourquoi il ne faut jamais utiliser l'IA pour rédiger un contenu que vous présentez comme vôtre. Il prévient que l'aveu d'une aide de l'IA dévalorise votre réputation et fait de tout travail ainsi produit de la pacotille.